Viacjazykovy NER: Vyzvy pri detekcii PII

Aktualizovane pre rok 2026

Medzera v presnosti

NER modely trenovane na anglictine dosahuju 85-92 % F1 na standardnych testoch. Aplikujte rovnake modely na arabsky alebo cinsky text. Presnost klesa na 50-70 %.

Pri praci s PII je tata medzera problem. Ucinnost 70 % znamena, ze 30 % citlivych dat zostava neviditelnych.

Priciny nie su chyby. Pramenia z toho, ako sa pisomne systemy lisia.

Styri hlavne priciny

1. Hranice slov

Anglictina oddeluje slova medzerami. Tokenizacia je jednoducha.

Cinstina nema vobec ziadne medzery.

"Zhang Wei zije v Pekingu"
-> Najprv rozdelenie: ["Zhang Wei", "zije v", "Peking"]

Model nemoze oznackovat to, co nemoze najst. Rozdelenie musi prebehnut pred NER.

Arabcina spaja pismena v ramci slova. Kratke samohlasky su vynechane. Text ide sprava dolava.

"Mohamed zije v Dubaji"
-> Bez kratkych samohlasok, sprava dolava, spojene pismena

2. Morfologia

Anglicke slovesa sa menia niekollkymi sposobmi. Arabcina pouziva system korena. Jeden koren vytvara desiatky slov.

k-t-b ("pisat")
-> pisatel, kniha, kninica

NER musi analyzovat korene, aby nasiel mena v odvodených slovnych formach.

3. Konvencie mien

Latinizovane mena su najprv krstne potom priezvisko. Mena v jazykoch zprava dolava retazia rodinne vasby.

Mohamed syn Abdullaha

Cinske mena stavaju rodinne meno na prvy miesto. Vacsina mien ma dve alebo tri znaky.

Zhang Wei -- 2 znaky
Ouyang Xiu -- 3 znaky

Model postaveny na zapadnych vzoroch mien tieto struktury prehliadne.

4. Smer textu

Niektore jazyky bezi sprava dolava. Ked text RTL obsahuje anglicke meno, vizualny a logicky poriadok sa oddelia. Toto sa nazyva text BiDi. Vyzaduje starostlive spracovanie.

F1 skore podla pisomneho systemu

Jazyk	Pisomny system	Rozmedzie F1	Uroven
Anglictina	Latinka	85-92 %	Nizka
Nemcina	Latinka	82-88 %	Nizka
Francuzstina	Latinka	80-87 %	Nizka
Spanielcina	Latinka	81-86 %	Nizka
Rustina	Cyrilika	75-83 %	Stredna
Arabcina	Abjad	55-75 %	Vysoka
Cinstina	Hanzi	60-78 %	Vysoka
Japonczina	Zmieshane	65-80 %	Vysoka
Thajcina	Thajsky	50-70 %	Velmi vysoka
Hindcina	Devanagari	60-75 %	Vysoka

Ne-latinske systemy a chybajuce medzery znizuju skore napriec celou oblastou.

Trojurovnove riesenie

Pouzivame tri urovne na pokrytie 48 jazykov a pisomnych systemov.

Uroven 1: spaCy -- 25 jazykov

Pre jazyky so silnymi, overenymi modelmi. Pokryva anglictinu, nemcinu, francuzstinu, spanielcinu, talianczinu, portugalcinu, holandzinu, polstinu, rustinu a grecinu.

Uroven 2: Stanza -- Zlozite jazyky

Stanford Stanza zvlada arabcinu, cinstinu, japonczinu a koreanczinu. Pred NER spusta rozdelovanie slov a analyzu korenov.

Uroven 3: XLM-RoBERTa -- Jazyky s malymi zdrojmi

Pre jazyky bez vyhradnych modelov. Sem patria thajcina, vietnamcina, hindcina, bengalcina, hebrejtina, turectina a farcina. Zvlada zmieshany jazykovy text bez explicitnych znacok.

RTL a BiDi

Text zprava dolava vyzaduje pridatocne kroky nad ramec rozdelovania.

Nas pipeline:

Normalizuje text na logicke poradie.
Spusta NER v tomto poradi.
Mapuje pozicias entit spat na vizualne poradie.

Pred NER odstranjujeme pripojene predpony a po NER ich pridavame spat.

"Mohamed" -- iba meno
"pre Mohameda" -- predpona pripojenna

Prepinanie jazykov

Skutocne dokumenty casto miesha jazyky v jednom riadku.

"Meeting s Johnom je o 3"
"Dnes som so Johnom isiel nakupovat"

Nas pipeline rozdeluje podla jazyka. Spusta spravny model na kazdu cast. Potom spaja vysledky s mapovanim pozicii.

Interne benchmarky

Vysledky z internych testov na zmieshanych jazykovych datach:

Scenar	F1
Iba anglictina	91 %
Iba nemcina	88 %
Iba arabcina	79 %
Iba cinstina	81 %
Zmes anglictina-arabcina	83 %
Zmes anglictina-cinstina	84 %
Zmes anglictina-nemcina	89 %

Nastavenie

Desktopova aplikacia automaticky detekuje jazyk pre kazdy dokument. Pre subory so zmiesanymi jazykmi spracuvava kazdy segment spravnym modelom. Ziadny manualny krok nie je potrebny.

Nastavte jazyk v API, ked ho poznate:

{
  "text": "Mohamed syn Abdullaha",
  "language": "ar"
}

Pouzite automaticku detekciu, ked ho nepoznate:

{
  "text": "Mohamed syn Abdullaha",
  "language": "auto"
}

Vlastne vzory by mali pokryvat miestne specificke cislice:

# Latinke ID zamestnanca
EMP-[0-9]{6}

# Arabske ID zamestnanca (obsahuje arabsko-indicke cislice)
zamestnanec-[0-9]{6}

Pozrite si uplny zoznam entit. Pre nastavenie API navstivte stranku funkcii API. Nas sprievodca suladom GDPR pokryva, ako medzery v detekcii ovplyvnuju pravo na ochranu udajov.

anonym.legal pouziva trojurovnovy NER stack -- spaCy, Stanza a XLM-RoBERTa -- na pokrytie 48 jazykov s konzistentnou detekciou PII.

Zdroje

Súvisiace články

Technické

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

Začať bezplatnú skúšobnú verziu Zobraziť funkcie

Viacjazykovy NER: Anglicke modely zlyhavaju na arabcine

Viacjazykovy NER: Vyzvy pri detekcii PII

Medzera v presnosti

Styri hlavne priciny

1. Hranice slov

2. Morfologia

3. Konvencie mien

4. Smer textu

F1 skore podla pisomneho systemu

Trojurovnove riesenie

Uroven 1: spaCy -- 25 jazykov

Uroven 2: Stanza -- Zlozite jazyky

Uroven 3: XLM-RoBERTa -- Jazyky s malymi zdrojmi

RTL a BiDi

Prepinanie jazykov

Interne benchmarky

Nastavenie

Zdroje

Súvisiace články

Presidio: 3-tyzdnové nastavenie vs. spravované PII

Od 6 tyzднov na 3 dni: spravované API pre PII

Bezplatná detekcia PII stojí viac ako 13 000 EUR rocne

Pripravení chrániť vaše údaje?

Viacjazykovy NER: Anglicke modely zlyhavaju na arabcine

Viacjazykovy NER: Vyzvy pri detekcii PII

Medzera v presnosti

Styri hlavne priciny

1. Hranice slov

2. Morfologia

3. Konvencie mien

4. Smer textu

F1 skore podla pisomneho systemu

Trojurovnove riesenie

Uroven 1: spaCy -- 25 jazykov

Uroven 2: Stanza -- Zlozite jazyky

Uroven 3: XLM-RoBERTa -- Jazyky s malymi zdrojmi

RTL a BiDi

Prepinanie jazykov

Interne benchmarky

Nastavenie

Zdroje

Súvisiace články

Presidio: 3-tyzdnové nastavenie vs. spravované PII

Od 6 tyzднov na 3 dni: spravované API pre PII

Bezplatná detekcia PII stojí viac ako 13 000 EUR rocne

Pripravení chrániť vaše údaje?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow