anonym.legal
Назад до блогуТехнічні

Багатомовний NER: чому ваша модель, навчена на...

Англомовні моделі NER досягають точності 85–92%. Арабська та китайська? Часто лише 50–70%.

February 26, 20268 хв читання
NERmultilingualArabic NLPChinese NLPPII detection

Виклик багатомовного NER

Моделі Named Entity Recognition (NER), навчені на англійській мові, демонструють вражаючі результати — F1-показники 85–92% на стандартних бенчмарках. Застосуйте ті самі моделі до арабської або китайської? Точність часто падає до 50–70%.

Для виявлення PII ця прогалина є критичною. Рівень виявлення 70% означає, що 30% конфіденційних даних залишаються незахищеними.

Чому англомовні моделі не справляються

1. Межі слів

Англійська: Слова розділені пробілами.

"Іван Петренко живе в Нью-Йорку"
→ ["Іван", "Петренко", "живе", "в", "Нью-Йорку"]

Китайська: Взагалі немає меж слів.

"张伟住在北京"
→ Потрібна токенізація: ["张伟", "住在", "北京"]

Арабська: Слова з'єднуються, короткі голосні не пишуться.

«محمد يعيش في دبي»
→ Зв'язаний шрифт, справа наліво, голосні відсутні

2. Написання імен

Англійська NER навчена на таких іменах, як «Джон Сміт» або «Марія Гарсія». Ця база знань не переноситься на:

  • Арабські імена: «Мухаммад аль-Рашід» (патронімний ланцюг)
  • Китайські імена: «李偉» (прізвище перше, 2-4 символи)
  • Корейські імена: «김민준» (Чосоль, прізвище перше)

3. Форматування чисел і ідентифікаторів

Порядок читання справа наліво змінює вигляд чисел:

  • Арабський ідентифікатор може містити змішаний текст RTL+LTR
  • Номери ОАЕ Emirates ID: 784-XXXX-XXXXXXX-X
  • Саудівська Аравія Iqama: 10-значний

Технічні рішення

Спільне міжмовне навчання

Моделі, як-от XLM-RoBERTa, навчаються на 100+ мовах одночасно. Завдяки трансферу знань між мовами вони краще справляються з мовами з невеликими ресурсами.

Але навіть XLM-RoBERTa потребує тонкого налаштування для:

  • Специфічних для домену сутностей (медичних, фінансових)
  • Регіональних форматів ідентифікаторів
  • Змішаних мовних документів

Гібридний підхід

anonym.legal поєднує:

  1. ML-based NER для іменованих сутностей (імена, організації, місця)
  2. Детермінований шар для структурованих ідентифікаторів (SSN, IBAN, номери телефонів)
  3. Специфічні для мови моделі для 24 підтримуваних spaCy мов

Охоплення 48 мов

anonym.legal підтримує PII виявлення на 48 мовах, включаючи:

Основні мови ЄС: Англійська, Німецька, Французька, Іспанська, Італійська, Польська, Португальська, Нідерландська, Шведська, Датська та ін.

Азійські мови: Японська, Китайська, Корейська, Хінді, Арабська

Рідкісні мови ЄС: Болгарська, Хорватська, Словацька, Словенська, Литовська, Латвійська тощо

Висновок

Для організацій, що обробляють PII на кількох мовах, однієї моделі, навченої на англійській, недостатньо. Вам потрібен інструмент, розроблений з нуля для багатомовної точності.


Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.