Виклик багатомовного NER
Моделі Named Entity Recognition (NER), навчені на англійській мові, демонструють вражаючі результати — F1-показники 85–92% на стандартних бенчмарках. Застосуйте ті самі моделі до арабської або китайської? Точність часто падає до 50–70%.
Для виявлення PII ця прогалина є критичною. Рівень виявлення 70% означає, що 30% конфіденційних даних залишаються незахищеними.
Чому англомовні моделі не справляються
1. Межі слів
Англійська: Слова розділені пробілами.
"Іван Петренко живе в Нью-Йорку"
→ ["Іван", "Петренко", "живе", "в", "Нью-Йорку"]
Китайська: Взагалі немає меж слів.
"张伟住在北京"
→ Потрібна токенізація: ["张伟", "住在", "北京"]
Арабська: Слова з'єднуються, короткі голосні не пишуться.
«محمد يعيش في دبي»
→ Зв'язаний шрифт, справа наліво, голосні відсутні
2. Написання імен
Англійська NER навчена на таких іменах, як «Джон Сміт» або «Марія Гарсія». Ця база знань не переноситься на:
- Арабські імена: «Мухаммад аль-Рашід» (патронімний ланцюг)
- Китайські імена: «李偉» (прізвище перше, 2-4 символи)
- Корейські імена: «김민준» (Чосоль, прізвище перше)
3. Форматування чисел і ідентифікаторів
Порядок читання справа наліво змінює вигляд чисел:
- Арабський ідентифікатор може містити змішаний текст RTL+LTR
- Номери ОАЕ Emirates ID: 784-XXXX-XXXXXXX-X
- Саудівська Аравія Iqama: 10-значний
Технічні рішення
Спільне міжмовне навчання
Моделі, як-от XLM-RoBERTa, навчаються на 100+ мовах одночасно. Завдяки трансферу знань між мовами вони краще справляються з мовами з невеликими ресурсами.
Але навіть XLM-RoBERTa потребує тонкого налаштування для:
- Специфічних для домену сутностей (медичних, фінансових)
- Регіональних форматів ідентифікаторів
- Змішаних мовних документів
Гібридний підхід
anonym.legal поєднує:
- ML-based NER для іменованих сутностей (імена, організації, місця)
- Детермінований шар для структурованих ідентифікаторів (SSN, IBAN, номери телефонів)
- Специфічні для мови моделі для 24 підтримуваних spaCy мов
Охоплення 48 мов
anonym.legal підтримує PII виявлення на 48 мовах, включаючи:
Основні мови ЄС: Англійська, Німецька, Французька, Іспанська, Італійська, Польська, Португальська, Нідерландська, Шведська, Датська та ін.
Азійські мови: Японська, Китайська, Корейська, Хінді, Арабська
Рідкісні мови ЄС: Болгарська, Хорватська, Словацька, Словенська, Литовська, Латвійська тощо
Висновок
Для організацій, що обробляють PII на кількох мовах, однієї моделі, навченої на англійській, недостатньо. Вам потрібен інструмент, розроблений з нуля для багатомовної точності.
- Переглянути підтримувані мови — 48 мов, 285+ типів сутностей
- Розпочати безкоштовно
Джерела: