Zpět na blogTechnické

Vícejazyčné NER: Výzvy arabštiny a čínštiny pro...

Detekce PII v arabštině a čínštině naráží na jedinečné výzvy: RTL písmo, žádné mezery mezi slovy, komplexní morfologie.

February 26, 20268 min čtení
NERmultilingualArabic NLPChinese NLPPII detection

Proč jsou arabština a čínština zvláštní výzvy pro NER

Rozpoznávání pojmenovaných entit (NER) je základem moderní detekce PII. Ale NER systémy navržené pro angličtinu selhávají v arabštině a čínštině z fundamentálních lingvistických důvodů.

Pochopení těchto výzev je klíčové pro organizace zpracovávající vícejazyčná data.

Výzvy arabštiny

1. Skript zprava doleva (RTL)

Arabský text teče zprava doleva, ale čísla a latinská slova tečou zleva doprava. Tento bidrektionální text vytváří složité tokenizační výzvy.

Příklad arabského jména: محمد أحمد (Muhammad Ahmad)

Tokenizátor navržený pro LTR jazyky může chybně segmentovat toto jako dvě nesouvisející tokeny.

2. Bohatá morfologie a připojené zájmeny

Arabština je aglutinační jazyk – předpony a přípony se připojují k kořenům slov a mění jejich meaning. Zamlčení a spálení mohou skrýt PII:

  • كتابه (kitābuhu) = „jeho kniha" – přípona -hu je zájmeno třetí osoby
  • بمحمد (bi-Muhammad) = „od Muhammada" – předpona bi- je předložka

Standardní NER bude hledat „Muhammad" jako izolovaný token a přehlédne „بمحمد".

3. Dialektické variace

Arabština má přes 30 dialektů s odlišnou ortografií, slovní zásobou a gramatikou. Klasický egyptský arabský jmenný vzor je odlišný od marockých darija nebo levantinské arabštiny.

4. Nepovinná vokalizace

Standardní arabský text vynechává krátké samohláskové zvuky (harakát). Stejné jméno může být napsáno mnoha způsoby:

  • محمد (Muhammad)
  • مُحَمَّد (Muhammad s plnou vokalizací)

Výzvy čínštiny

1. Žádné mezery mezi slovy

Čínský text je psán bez mezer. „Peking University" je 北京大学 – čtyři znaky bez oddělení. Segmentace slov je nezbytná před NER, ale sama je složitá a chybná.

2. Homofonie a homofonní znaky

Čínština má tisíce homofonů. Jméno 李明 (Li Ming) a 黎明 (Svítání/Li Ming) jsou homofonní – odlišení vyžaduje kontextuální porozumění.

3. Tradicionální vs. zjednodušená čínština

Čínská jména mohou být psána v tradicionálním (Tchaj-wan, Hongkong) nebo zjednodušeném (pevninská Čína) skriptu:

  • 劉德華 (Tradicionální – Hongkong)
  • 刘德华 (Zjednodušená – pevninská Čína)

Oba odkazují na totéž jméno (Andy Lau).

4. Jmenné vzory se liší od Evropy

Čínská jména: příjmení jako první, obecně 2–4 znaky. Organizační jména mohou obsahovat číselné identifikátory.

Jak anonym.legal řeší vícejazyčné NER

Jazykově specifické modely spaCy

Pro arabštinu a čínštinu nasazujeme specializované spaCy modely:

  • ar_core_news_sm – Arabský model naučený na zpravodajských textech
  • zh_core_web_sm – Čínský model s podporou segmentace slov

Tyto modely jsou optimalizovány pro NER v příslušných jazycích.

Arabská normalizace

Před analýzou text normalizujeme:

  1. Sjednocení variant hamza (ء, أ, إ, آ)
  2. Normalizace konečné ya/alef maqsura
  3. Odstranění diakritiky pro konzistentní porovnávání

Čínská segmentace slov

Používáme jieba tokenizátor pro segmentaci čínského textu před NER:

  • Slovníkové vyhledávání
  • Analýza skrytého Markovova modelu (HMM)
  • Kontextové seskupení

Vlastní entity pro MENA a APAC trhy

Pro organizace působící v arabském světě nebo Číně:

  • Arabská národní ID čísla (15 číselný formát)
  • Čínský ID (18 znaků, luhn-like checksum)
  • Registrační čísla místních firem

Výsledky přesnosti pro arabštinu a čínštinu

EntitaArabština F1Čínština F1Angličtina F1
PERSON91,393,798,1
ORG87,289,495,3
GPE94,196,297,8
PHONE98,497,999,1
EMAIL99,299,199,3

Testováno na 5 000 dokumentech v každém jazyce

Anglická přesnost je výrazně vyšší, ale arabská a čínská přesnost je dostatečná pro produkční použití ve většině případů.

Praktické doporučení pro vícejazyčné organizace

  1. Specifikujte jazyky dokumentu, kde je to možné – výrazně zlepšuje přesnost
  2. Konfigurujte specifické vzory pro entitu pro vaše trhy (arabská národní ID, čínská ID)
  3. Přehlédněte vzorky pro každý jazyk při nastavování nového pracovního postupu
  4. Sledujte falešně negativní výsledky v produkci pro kontinuální zlepšení

Závěr

Vícejazyčná detekce PII není pouze překladem anglické detekce do jiných jazyků. Arabština, čínština a jiné non-latinské jazyky vyžadují zcela odlišné lingvistické přístupy.

anonym.legal investoval do nativních jazykových modelů pro 48 jazyků – včetně arabštiny (a jejích dialektů), zjednodušené a tradicionální čínštiny a dalších RTL jazyků – proto, že globální organizace potřebují ochranu, která funguje pro jejich celou zákaznickou základnu.


Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.