Hizkuntza Anitzeko NER: PII Detekzioko Erronkak

2026rako eguneratua

Zehaztasun Aldea

Ingelesean trebatutako NER modeloek %85-92ko F1 lortzen dute estandar-probetan. Modelo berdinak arabiera edo txinera testuan aplikatu. Zehaztasunak %50-70era jaisten da.

PII lanerako, alde hori arazo bat da. %70eko asmatu-tasa batek %30 datu sentikorra ikusi gabe uzten ditu.

Kausak ez dira akatsak. Idazketa-sistemek nola desberdintzen diren datoz.

Lau Erroko Kausa

1. Hitz-Mugak

Ingelesak hitzak zuriuneekin banatzen ditu. Tokenizazioa erraza da.

Txinerak ez du zuriunerik batere.

"Hau txinera testua da"
-> Lehenik banatu: ["hitz1", "hitz2", "hitz3"]

Modeloak ezin du etiketatu aurkitu ezin duena. Banaketa NER baino lehen etorri behar da.

Arabierak hizkiak hitzen barruan lotzen ditu. Bokal laburrak kanpoan uzten dira. Testua eskuinetik ezkerrera doa.

"Muhammad Dubain bizi da"
-> Ez bokal laburrik, eskuinetik ezkerrera, hizki lotuak

2. Morfologia

Ingeleseko aditzak modu gutxitan aldatzen dira. Arabierak erro-sistema bat erabiltzen du. Erro bakar batek dozenaka hitz sortzen ditu.

k-t-b ("idatzi")
-> idazlea, liburua, liburutegia

NERk erroak analizatu behar ditu izen eratorritako hitz-formetik aurkitzeko.

3. Izen-Ohiturak

Latin izenak Lehen ondoren Azken joaten dira. Eskuin-ezkerrerako hizkuntzetan izenak familia-loturak kateatzen dituzte.

Muhammad bn Abdullah
(Muhamad Abdullah-ren semea)

Txinera izenek familia-izena lehenik jartzen dute. Izen gehienak bi edo hiru karaktere luzekoak dira.

Zhang Wei -- 2 karaktere
Ouyang Xiu -- 3 karaktere

Mendebaldeko izen-ereduetan eraikitako modeloek egitura hauek galduko dituzte.

4. Testu-Norabidea

Zenbait hizkuntza eskuinetik ezkerrera doaz. Eskuin-ezkerrerako testuan ingelesezko izen bat dagoenean, ikusizko ordena eta ordena logikoa banandu egiten dira. Honi BiDi testua deitzen zaio. Zaindu beharreko analizakia eskatzen du.

Idazketa-Sistemaren Araberako F1 Puntuazioak

Hizkuntza	Idazketa-Sistema	F1 Tartea	Maila
Ingelesa	Latina	%85-92	Baxua
Alemana	Latina	%82-88	Baxua
Frantsesa	Latina	%80-87	Baxua
Gaztelania	Latina	%81-86	Baxua
Errusiera	Zirilikoa	%75-83	Ertaina
Arabiera	Abjad	%55-75	Altua
Txinera	Hanzi	%60-78	Altua
Japonera	Nahasia	%65-80	Altua
Tailandiera	Tailandiar	%50-70	Oso Altua
Hindia	Devanagari	%60-75	Altua

Latin ez diren sistemek eta hitz-banaketarik ezak puntuazioak orokorrean jaistearen eragile dira.

Hiru Mailako Irtenbidea

48 hizkuntza eta idazketa-sistema estaltzeko hiru maila erabiltzen ditugu.

1. Maila: spaCy -- 25 Hizkuntza

Modelo sendo eta probatudun hizkuntzetarako. Honek estaltzen ditu ingelesa, alemana, frantsesa, gaztelania, italiera, portugesa, nederlandera, poloniera, errusiera eta greziera.

2. Maila: Stanza -- Hizkuntza Konplexuak

Stanfordeko Stanza-k arabiera, txinera, japonera eta koreera tratatzen ditu. Hitz-banaketako eta erro-analisiko urratsak NER baino lehen exekutatzen ditu.

3. Maila: XLM-RoBERTa -- Baliabide Gutxiko Hizkuntzak

Modelo dedikaturik ez duten hizkuntzetarako. Tailandiera, vietnamera, hindia, bengalera, hebreera, turkiera eta fartsiera hemen sartzen dira. Hizkuntz-nahasketa tratatzen du bandera espliziturik gabe.

Eskuin-Ezkerreko eta BiDi

Eskuin-ezkerrerako testua banaketa baino urrats gehiago behar ditu.

Gure bideak:

Testua ordena logikora normalizatzen du.
NER ordena horretan exekutatzen du.
Entitate-posizioak ikusizko ordenara itzultzen ditu.

Lotutako aurrizkiak NER baino lehen kentzen ditugu eta ondoren itzultzen ditugu.

"Muhammad" -- izena soilik
"Muhammadi" -- "Muhammad-en" (aurrizkia lotuta)

Kode-Aldaketa

Benetan egindako dokumentuek askotan hizkuntzak lerro bakarrean nahasten dituzte.

"El meeting con John es at 3pm"
"Gaur John-ekin shopping-era joan naiz"

Gure bideak hizkuntzaren arabera banatzen du. Modelo egokia exekutatzen du zati bakoitzean. Ondoren emaitzak posizioen maparekin batzen ditu.

Barne-Benchmarkak

Hizkuntza nahastuaren barne-proba emaitzak:

Egoera	F1
Ingelesa soilik	%91
Alemana soilik	%88
Arabiera soilik	%79
Txinera soilik	%81
Ingeles-Arabiera nahasketa	%83
Ingeles-Txinera nahasketa	%84
Ingeles-Alemana nahasketa	%89

Konfigurazio Oharrak

Mahaigaineko aplikazioak automatikoki detektatzen du hizkuntza dokumentu bakoitzeko. Hizkuntz-nahasketa duten fitxategietarako, segmentu bakoitza modelo egokiarekin prozesatzen du. Eskuzko urratsa ez da behar.

Ezarri hizkuntza APIan dakizunean:

{
  "text": "Muhammad bin Abdullah",
  "language": "ar"
}

Erabili auto-detekzioa ez dakizunean:

{
  "text": "Muhammad bin Abdullah",
  "language": "auto"
}

Eredukzio pertsonalizatuek tokiko zenbakiak estali beharko lirateke:

# Latinezko langile IDa
EMP-[0-9]{6}

# Arabierako langile IDa (arabiar-indiar zenbakiak barne)
mozetsu-[0-9]{6}

Ikusi entitate-zerrenda osoa. API konfiguratzeko, bisitatu API funtzionalitateen orrialdea. Gure GDPR betetze gidak detekzio-aldeek datu-babese legean nola eragiten duten estaltzen du.

anonym.legal-ek hiru mailako NER pila bat erabiltzen du -- spaCy, Stanza eta XLM-RoBERTa -- PII detekzio koherenteekin 48 hizkuntza estaltzeko.

Iturriak

Lotutako Artikuluak

Teknikoa

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

Hasi Probako Bertsioa Ikusi Ezaugarriak

Hizkuntza Anitzeko NER: Ingelesak Arabiera Huts Egiten Du

Hizkuntza Anitzeko NER: PII Detekzioko Erronkak

Zehaztasun Aldea

Lau Erroko Kausa

1. Hitz-Mugak

2. Morfologia

3. Izen-Ohiturak

4. Testu-Norabidea

Idazketa-Sistemaren Araberako F1 Puntuazioak

Hiru Mailako Irtenbidea

1. Maila: spaCy -- 25 Hizkuntza

2. Maila: Stanza -- Hizkuntza Konplexuak

3. Maila: XLM-RoBERTa -- Baliabide Gutxiko Hizkuntzak

Eskuin-Ezkerreko eta BiDi

Kode-Aldaketa

Barne-Benchmarkak

Konfigurazio Oharrak

Iturriak

Lotutako Artikuluak

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Prest zure datuak babesteko?

Hizkuntza Anitzeko NER: Ingelesak Arabiera Huts Egiten Du

Hizkuntza Anitzeko NER: PII Detekzioko Erronkak

Zehaztasun Aldea

Lau Erroko Kausa

1. Hitz-Mugak

2. Morfologia

3. Izen-Ohiturak

4. Testu-Norabidea

Idazketa-Sistemaren Araberako F1 Puntuazioak

Hiru Mailako Irtenbidea

1. Maila: spaCy -- 25 Hizkuntza

2. Maila: Stanza -- Hizkuntza Konplexuak

3. Maila: XLM-RoBERTa -- Baliabide Gutxiko Hizkuntzak

Eskuin-Ezkerreko eta BiDi

Kode-Aldaketa

Barne-Benchmarkak

Konfigurazio Oharrak

Iturriak

Lotutako Artikuluak

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Prest zure datuak babesteko?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow