Výzva viacjazyčného NER
Modely Named Entity Recognition (NER) trénované na angličtine dosahujú pôsobivé výsledky—skóre F1 85-92% na štandardných testovacích súboroch. Aplikujte tie isté modely na arabčinu alebo čínštinu? Presnosť často klesá na 50-70%.
Pre detekciu PII je táto medzera kritická. Miera detekcie 70% znamená, že 30% citlivých údajov zostane nechránených.
Prečo anglické modely zlyhávania
1. Hranice slov
Angličtina: Slová sú oddelené medzerami.
"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]
Čínština: Vôbec žiadne hranice slov.
"张伟住在北京"
→ Potrebuje segmentáciu najskôr: ["张伟", "住在", "北京"]
Arabčina: Slová sa spájajú a krátke samohlásky nie sú napísané.
"محمد يعيش في دبي"
→ Spojená skripta, sprava doľava, samohlásky vynechané
Anglické pravidlá tokenizácie jednoducho neplatia.
2. Morfologická zložitosť
Anglická morfológia: Relatívne jednoduchá
run → runs, running, ran
Arabská morfológia: Mimoriadne zložitá (koreňový vzorový systém)
كتب (k-t-b, "napísať" koreň)
→ كاتب (pisateľ), كتاب (kniha), مكتبة (knižnica), يكتب (on píše)
Jednotný arabský koreň generuje desiatky súvisiacich slov. Modely NER musia pochopiť tento systém odvodzovania.
3. Konvencie mena
Anglické mená: Prvý posledný
John Smith, Mary Johnson
Arabské mená: Viac zložiek
محمد بن عبد الله بن عبد المطلب
(Muhammad syn-z Abdullah syn-z Abdul-Muttalib)
Čínske mená: Priezvisko najskôr, často 2-3 znaky spolu
张伟 (Zh...