anonym.legal
Povratak na blogTehnička

Мултиларалскан NER: Енглески Неуспева у Арабском

Енглески NER модели достигају 85-92% точност. Арабски и кинески падају на 40-60%. Откријте зашто глобалну езику не раду и како да отпустате.

February 26, 20268 min čitanja
NERmultilingualArabic NLPChinese NLPPII detection

Енглески Доминира NER, Остали Језици Пропадају

Природа Language Processing за Named Entity Recognition (NER) је дубоко англо-центрична:

ЈезикNER ТочностЕнтитет ТиповиОбучни Подаци
Енглески92%200+10M+ докумената
Немачки88%1502M докумената
Францoski85%1401.5M докумената
Арабски58%40100K докумената
Кинески62%50200K докумената
Јапански78%60400K докумената
Тајландски45%2010K докумената

Зашто Арабски Происпада?

  1. Дијалектна Варијација - Modern Standard Arabic (MSA) vs Egyptian, Levantine, Gulf арабски—дубоко различити
  2. Скрипта Изазови - Арабски писати десно на лево (RTL) са различитим облике за исту писмо (initial, medial, final)
  3. Недостају Обучни Подаци - Нема Wikipedia-скале текста на арабском за NER обуку
  4. Неуредни Граммара - Арабски је флексибилан језик, са нумеросним падежима и облицима

Зашто Кинески Происпада?

  1. Граничење Речи - Кинески текста нема размака између речи. "我的名字是张三" (My name is Zhang San) нема분리逻辑 реч границе
  2. Хомоними - Исти карактер може значити различито ствари у различитим контекстима
  3. Традиционални vs Поједностављени - Различити скрипте углед на регион
  4. Обучни Асиметрија - Мање Кинески NER обучних података од енглеског

Решење: Гибридни Приступ

anonym.legal је користи гибридни моделни комбинирајучи:

  1. spaCy Многојезични Модели - Обучена на 24 језика
  2. Regex Моделни - За позноване шаблоне (SSN, кредитна картица)
  3. NLP Фине-Туинг - На-домаћој Presidio за критични ентитета
  4. Контекстна Правила - Ако видиш "Mr." + име, вероватно је PERSON

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.