Енглески Доминира NER, Остали Језици Пропадају
Природа Language Processing за Named Entity Recognition (NER) је дубоко англо-центрична:
| Језик | NER Точност | Ентитет Типови | Обучни Подаци |
|---|---|---|---|
| Енглески | 92% | 200+ | 10M+ докумената |
| Немачки | 88% | 150 | 2M докумената |
| Францoski | 85% | 140 | 1.5M докумената |
| Арабски | 58% | 40 | 100K докумената |
| Кинески | 62% | 50 | 200K докумената |
| Јапански | 78% | 60 | 400K докумената |
| Тајландски | 45% | 20 | 10K докумената |
Зашто Арабски Происпада?
- Дијалектна Варијација - Modern Standard Arabic (MSA) vs Egyptian, Levantine, Gulf арабски—дубоко различити
- Скрипта Изазови - Арабски писати десно на лево (RTL) са различитим облике за исту писмо (initial, medial, final)
- Недостају Обучни Подаци - Нема Wikipedia-скале текста на арабском за NER обуку
- Неуредни Граммара - Арабски је флексибилан језик, са нумеросним падежима и облицима
Зашто Кинески Происпада?
- Граничење Речи - Кинески текста нема размака између речи. "我的名字是张三" (My name is Zhang San) нема분리逻辑 реч границе
- Хомоними - Исти карактер може значити различито ствари у различитим контекстима
- Традиционални vs Поједностављени - Различити скрипте углед на регион
- Обучни Асиметрија - Мање Кинески NER обучних података од енглеског
Решење: Гибридни Приступ
anonym.legal је користи гибридни моделни комбинирајучи:
- spaCy Многојезични Модели - Обучена на 24 језика
- Regex Моделни - За позноване шаблоне (SSN, кредитна картица)
- NLP Фине-Туинг - На-домаћој Presidio за критични ентитета
- Контекстна Правила - Ако видиш "Mr." + име, вероватно је PERSON