Viacjazykovy NER: Vyzvy pri detekcii PII
Aktualizovane pre rok 2026
Medzera v presnosti
NER modely trenovane na anglictine dosahuju 85-92 % F1 na standardnych testoch. Aplikujte rovnake modely na arabsky alebo cinsky text. Presnost klesa na 50-70 %.
Pri praci s PII je tata medzera problem. Ucinnost 70 % znamena, ze 30 % citlivych dat zostava neviditelnych.
Priciny nie su chyby. Pramenia z toho, ako sa pisomne systemy lisia.
Styri hlavne priciny
1. Hranice slov
Anglictina oddeluje slova medzerami. Tokenizacia je jednoducha.
Cinstina nema vobec ziadne medzery.
"Zhang Wei zije v Pekingu"
-> Najprv rozdelenie: ["Zhang Wei", "zije v", "Peking"]
Model nemoze oznackovat to, co nemoze najst. Rozdelenie musi prebehnut pred NER.
Arabcina spaja pismena v ramci slova. Kratke samohlasky su vynechane. Text ide sprava dolava.
"Mohamed zije v Dubaji"
-> Bez kratkych samohlasok, sprava dolava, spojene pismena
2. Morfologia
Anglicke slovesa sa menia niekollkymi sposobmi. Arabcina pouziva system korena. Jeden koren vytvara desiatky slov.
k-t-b ("pisat")
-> pisatel, kniha, kninica
NER musi analyzovat korene, aby nasiel mena v odvodených slovnych formach.
3. Konvencie mien
Latinizovane mena su najprv krstne potom priezvisko. Mena v jazykoch zprava dolava retazia rodinne vasby.
Mohamed syn Abdullaha
Cinske mena stavaju rodinne meno na prvy miesto. Vacsina mien ma dve alebo tri znaky.
Zhang Wei -- 2 znaky
Ouyang Xiu -- 3 znaky
Model postaveny na zapadnych vzoroch mien tieto struktury prehliadne.
4. Smer textu
Niektore jazyky bezi sprava dolava. Ked text RTL obsahuje anglicke meno, vizualny a logicky poriadok sa oddelia. Toto sa nazyva text BiDi. Vyzaduje starostlive spracovanie.
F1 skore podla pisomneho systemu
| Jazyk | Pisomny system | Rozmedzie F1 | Uroven |
|---|---|---|---|
| Anglictina | Latinka | 85-92 % | Nizka |
| Nemcina | Latinka | 82-88 % | Nizka |
| Francuzstina | Latinka | 80-87 % | Nizka |
| Spanielcina | Latinka | 81-86 % | Nizka |
| Rustina | Cyrilika | 75-83 % | Stredna |
| Arabcina | Abjad | 55-75 % | Vysoka |
| Cinstina | Hanzi | 60-78 % | Vysoka |
| Japonczina | Zmieshane | 65-80 % | Vysoka |
| Thajcina | Thajsky | 50-70 % | Velmi vysoka |
| Hindcina | Devanagari | 60-75 % | Vysoka |
Ne-latinske systemy a chybajuce medzery znizuju skore napriec celou oblastou.
Trojurovnove riesenie
Pouzivame tri urovne na pokrytie 48 jazykov a pisomnych systemov.
Uroven 1: spaCy -- 25 jazykov
Pre jazyky so silnymi, overenymi modelmi. Pokryva anglictinu, nemcinu, francuzstinu, spanielcinu, talianczinu, portugalcinu, holandzinu, polstinu, rustinu a grecinu.
Uroven 2: Stanza -- Zlozite jazyky
Stanford Stanza zvlada arabcinu, cinstinu, japonczinu a koreanczinu. Pred NER spusta rozdelovanie slov a analyzu korenov.
Uroven 3: XLM-RoBERTa -- Jazyky s malymi zdrojmi
Pre jazyky bez vyhradnych modelov. Sem patria thajcina, vietnamcina, hindcina, bengalcina, hebrejtina, turectina a farcina. Zvlada zmieshany jazykovy text bez explicitnych znacok.
RTL a BiDi
Text zprava dolava vyzaduje pridatocne kroky nad ramec rozdelovania.
Nas pipeline:
- Normalizuje text na logicke poradie.
- Spusta NER v tomto poradi.
- Mapuje pozicias entit spat na vizualne poradie.
Pred NER odstranjujeme pripojene predpony a po NER ich pridavame spat.
"Mohamed" -- iba meno
"pre Mohameda" -- predpona pripojenna
Prepinanie jazykov
Skutocne dokumenty casto miesha jazyky v jednom riadku.
"Meeting s Johnom je o 3"
"Dnes som so Johnom isiel nakupovat"
Nas pipeline rozdeluje podla jazyka. Spusta spravny model na kazdu cast. Potom spaja vysledky s mapovanim pozicii.
Interne benchmarky
Vysledky z internych testov na zmieshanych jazykovych datach:
| Scenar | F1 |
|---|---|
| Iba anglictina | 91 % |
| Iba nemcina | 88 % |
| Iba arabcina | 79 % |
| Iba cinstina | 81 % |
| Zmes anglictina-arabcina | 83 % |
| Zmes anglictina-cinstina | 84 % |
| Zmes anglictina-nemcina | 89 % |
Nastavenie
Desktopova aplikacia automaticky detekuje jazyk pre kazdy dokument. Pre subory so zmiesanymi jazykmi spracuvava kazdy segment spravnym modelom. Ziadny manualny krok nie je potrebny.
Nastavte jazyk v API, ked ho poznate:
{
"text": "Mohamed syn Abdullaha",
"language": "ar"
}
Pouzite automaticku detekciu, ked ho nepoznate:
{
"text": "Mohamed syn Abdullaha",
"language": "auto"
}
Vlastne vzory by mali pokryvat miestne specificke cislice:
# Latinke ID zamestnanca
EMP-[0-9]{6}
# Arabske ID zamestnanca (obsahuje arabsko-indicke cislice)
zamestnanec-[0-9]{6}
Pozrite si uplny zoznam entit. Pre nastavenie API navstivte stranku funkcii API. Nas sprievodca suladom GDPR pokryva, ako medzery v detekcii ovplyvnuju pravo na ochranu udajov.
anonym.legal pouziva trojurovnovy NER stack -- spaCy, Stanza a XLM-RoBERTa -- na pokrytie 48 jazykov s konzistentnou detekciou PII.