Späť na blogTechnické

Viacjazyčný NER: Prečo váš model trénovaný na...

Modely NER trénované na angličtine dosahujú presnosť 85-92%. Arabčina a čínština? Často 50-70%.

February 26, 20268 min čítania
NERmultilingualArabic NLPChinese NLPPII detection

Výzva viacjazyčného NER

Modely Named Entity Recognition (NER) trénované na angličtine dosahujú pôsobivé výsledky—skóre F1 85-92% na štandardných testovacích súboroch. Aplikujte tie isté modely na arabčinu alebo čínštinu? Presnosť často klesá na 50-70%.

Pre detekciu PII je táto medzera kritická. Miera detekcie 70% znamená, že 30% citlivých údajov zostane nechránených.

Prečo anglické modely zlyhávania

1. Hranice slov

Angličtina: Slová sú oddelené medzerami.

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

Čínština: Vôbec žiadne hranice slov.

"张伟住在北京"
→ Potrebuje segmentáciu najskôr: ["张伟", "住在", "北京"]

Arabčina: Slová sa spájajú a krátke samohlásky nie sú napísané.

"محمد يعيش في دبي"
→ Spojená skripta, sprava doľava, samohlásky vynechané

Anglické pravidlá tokenizácie jednoducho neplatia.

2. Morfologická zložitosť

Anglická morfológia: Relatívne jednoduchá

run → runs, running, ran

Arabská morfológia: Mimoriadne zložitá (koreňový vzorový systém)

كتب (k-t-b, "napísať" koreň)
→ كاتب (pisateľ), كتاب (kniha), مكتبة (knižnica), يكتب (on píše)

Jednotný arabský koreň generuje desiatky súvisiacich slov. Modely NER musia pochopiť tento systém odvodzovania.

3. Konvencie mena

Anglické mená: Prvý posledný

John Smith, Mary Johnson

Arabské mená: Viac zložiek

محمد بن عبد الله بن عبد المطلب
(Muhammad syn-z Abdullah syn-z Abdul-Muttalib)

Čínske mená: Priezvisko najskôr, často 2-3 znaky spolu

张伟 (Zh...

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.