Proč jsou arabština a čínština zvláštní výzvy pro NER
Rozpoznávání pojmenovaných entit (NER) je základem moderní detekce PII. Ale NER systémy navržené pro angličtinu selhávají v arabštině a čínštině z fundamentálních lingvistických důvodů.
Pochopení těchto výzev je klíčové pro organizace zpracovávající vícejazyčná data.
Výzvy arabštiny
1. Skript zprava doleva (RTL)
Arabský text teče zprava doleva, ale čísla a latinská slova tečou zleva doprava. Tento bidrektionální text vytváří složité tokenizační výzvy.
Příklad arabského jména: محمد أحمد (Muhammad Ahmad)
Tokenizátor navržený pro LTR jazyky může chybně segmentovat toto jako dvě nesouvisející tokeny.
2. Bohatá morfologie a připojené zájmeny
Arabština je aglutinační jazyk – předpony a přípony se připojují k kořenům slov a mění jejich meaning. Zamlčení a spálení mohou skrýt PII:
- كتابه (kitābuhu) = „jeho kniha" – přípona -hu je zájmeno třetí osoby
- بمحمد (bi-Muhammad) = „od Muhammada" – předpona bi- je předložka
Standardní NER bude hledat „Muhammad" jako izolovaný token a přehlédne „بمحمد".
3. Dialektické variace
Arabština má přes 30 dialektů s odlišnou ortografií, slovní zásobou a gramatikou. Klasický egyptský arabský jmenný vzor je odlišný od marockých darija nebo levantinské arabštiny.
4. Nepovinná vokalizace
Standardní arabský text vynechává krátké samohláskové zvuky (harakát). Stejné jméno může být napsáno mnoha způsoby:
- محمد (Muhammad)
- مُحَمَّد (Muhammad s plnou vokalizací)
Výzvy čínštiny
1. Žádné mezery mezi slovy
Čínský text je psán bez mezer. „Peking University" je 北京大学 – čtyři znaky bez oddělení. Segmentace slov je nezbytná před NER, ale sama je složitá a chybná.
2. Homofonie a homofonní znaky
Čínština má tisíce homofonů. Jméno 李明 (Li Ming) a 黎明 (Svítání/Li Ming) jsou homofonní – odlišení vyžaduje kontextuální porozumění.
3. Tradicionální vs. zjednodušená čínština
Čínská jména mohou být psána v tradicionálním (Tchaj-wan, Hongkong) nebo zjednodušeném (pevninská Čína) skriptu:
- 劉德華 (Tradicionální – Hongkong)
- 刘德华 (Zjednodušená – pevninská Čína)
Oba odkazují na totéž jméno (Andy Lau).
4. Jmenné vzory se liší od Evropy
Čínská jména: příjmení jako první, obecně 2–4 znaky. Organizační jména mohou obsahovat číselné identifikátory.
Jak anonym.legal řeší vícejazyčné NER
Jazykově specifické modely spaCy
Pro arabštinu a čínštinu nasazujeme specializované spaCy modely:
ar_core_news_sm– Arabský model naučený na zpravodajských textechzh_core_web_sm– Čínský model s podporou segmentace slov
Tyto modely jsou optimalizovány pro NER v příslušných jazycích.
Arabská normalizace
Před analýzou text normalizujeme:
- Sjednocení variant hamza (ء, أ, إ, آ)
- Normalizace konečné ya/alef maqsura
- Odstranění diakritiky pro konzistentní porovnávání
Čínská segmentace slov
Používáme jieba tokenizátor pro segmentaci čínského textu před NER:
- Slovníkové vyhledávání
- Analýza skrytého Markovova modelu (HMM)
- Kontextové seskupení
Vlastní entity pro MENA a APAC trhy
Pro organizace působící v arabském světě nebo Číně:
- Arabská národní ID čísla (15 číselný formát)
- Čínský ID (18 znaků, luhn-like checksum)
- Registrační čísla místních firem
Výsledky přesnosti pro arabštinu a čínštinu
| Entita | Arabština F1 | Čínština F1 | Angličtina F1 |
|---|---|---|---|
| PERSON | 91,3 | 93,7 | 98,1 |
| ORG | 87,2 | 89,4 | 95,3 |
| GPE | 94,1 | 96,2 | 97,8 |
| PHONE | 98,4 | 97,9 | 99,1 |
| 99,2 | 99,1 | 99,3 |
Testováno na 5 000 dokumentech v každém jazyce
Anglická přesnost je výrazně vyšší, ale arabská a čínská přesnost je dostatečná pro produkční použití ve většině případů.
Praktické doporučení pro vícejazyčné organizace
- Specifikujte jazyky dokumentu, kde je to možné – výrazně zlepšuje přesnost
- Konfigurujte specifické vzory pro entitu pro vaše trhy (arabská národní ID, čínská ID)
- Přehlédněte vzorky pro každý jazyk při nastavování nového pracovního postupu
- Sledujte falešně negativní výsledky v produkci pro kontinuální zlepšení
Závěr
Vícejazyčná detekce PII není pouze překladem anglické detekce do jiných jazyků. Arabština, čínština a jiné non-latinské jazyky vyžadují zcela odlišné lingvistické přístupy.
anonym.legal investoval do nativních jazykových modelů pro 48 jazyků – včetně arabštiny (a jejích dialektů), zjednodušené a tradicionální čínštiny a dalších RTL jazyků – proto, že globální organizace potřebují ochranu, která funguje pro jejich celou zákaznickou základnu.
Zdroje: