Hizkuntza Anitzeko NER: PII Detekzioko Erronkak
2026rako eguneratua
Zehaztasun Aldea
Ingelesean trebatutako NER modeloek %85-92ko F1 lortzen dute estandar-probetan. Modelo berdinak arabiera edo txinera testuan aplikatu. Zehaztasunak %50-70era jaisten da.
PII lanerako, alde hori arazo bat da. %70eko asmatu-tasa batek %30 datu sentikorra ikusi gabe uzten ditu.
Kausak ez dira akatsak. Idazketa-sistemek nola desberdintzen diren datoz.
Lau Erroko Kausa
1. Hitz-Mugak
Ingelesak hitzak zuriuneekin banatzen ditu. Tokenizazioa erraza da.
Txinerak ez du zuriunerik batere.
"Hau txinera testua da"
-> Lehenik banatu: ["hitz1", "hitz2", "hitz3"]
Modeloak ezin du etiketatu aurkitu ezin duena. Banaketa NER baino lehen etorri behar da.
Arabierak hizkiak hitzen barruan lotzen ditu. Bokal laburrak kanpoan uzten dira. Testua eskuinetik ezkerrera doa.
"Muhammad Dubain bizi da"
-> Ez bokal laburrik, eskuinetik ezkerrera, hizki lotuak
2. Morfologia
Ingeleseko aditzak modu gutxitan aldatzen dira. Arabierak erro-sistema bat erabiltzen du. Erro bakar batek dozenaka hitz sortzen ditu.
k-t-b ("idatzi")
-> idazlea, liburua, liburutegia
NERk erroak analizatu behar ditu izen eratorritako hitz-formetik aurkitzeko.
3. Izen-Ohiturak
Latin izenak Lehen ondoren Azken joaten dira. Eskuin-ezkerrerako hizkuntzetan izenak familia-loturak kateatzen dituzte.
Muhammad bn Abdullah
(Muhamad Abdullah-ren semea)
Txinera izenek familia-izena lehenik jartzen dute. Izen gehienak bi edo hiru karaktere luzekoak dira.
Zhang Wei -- 2 karaktere
Ouyang Xiu -- 3 karaktere
Mendebaldeko izen-ereduetan eraikitako modeloek egitura hauek galduko dituzte.
4. Testu-Norabidea
Zenbait hizkuntza eskuinetik ezkerrera doaz. Eskuin-ezkerrerako testuan ingelesezko izen bat dagoenean, ikusizko ordena eta ordena logikoa banandu egiten dira. Honi BiDi testua deitzen zaio. Zaindu beharreko analizakia eskatzen du.
Idazketa-Sistemaren Araberako F1 Puntuazioak
| Hizkuntza | Idazketa-Sistema | F1 Tartea | Maila |
|---|---|---|---|
| Ingelesa | Latina | %85-92 | Baxua |
| Alemana | Latina | %82-88 | Baxua |
| Frantsesa | Latina | %80-87 | Baxua |
| Gaztelania | Latina | %81-86 | Baxua |
| Errusiera | Zirilikoa | %75-83 | Ertaina |
| Arabiera | Abjad | %55-75 | Altua |
| Txinera | Hanzi | %60-78 | Altua |
| Japonera | Nahasia | %65-80 | Altua |
| Tailandiera | Tailandiar | %50-70 | Oso Altua |
| Hindia | Devanagari | %60-75 | Altua |
Latin ez diren sistemek eta hitz-banaketarik ezak puntuazioak orokorrean jaistearen eragile dira.
Hiru Mailako Irtenbidea
48 hizkuntza eta idazketa-sistema estaltzeko hiru maila erabiltzen ditugu.
1. Maila: spaCy -- 25 Hizkuntza
Modelo sendo eta probatudun hizkuntzetarako. Honek estaltzen ditu ingelesa, alemana, frantsesa, gaztelania, italiera, portugesa, nederlandera, poloniera, errusiera eta greziera.
2. Maila: Stanza -- Hizkuntza Konplexuak
Stanfordeko Stanza-k arabiera, txinera, japonera eta koreera tratatzen ditu. Hitz-banaketako eta erro-analisiko urratsak NER baino lehen exekutatzen ditu.
3. Maila: XLM-RoBERTa -- Baliabide Gutxiko Hizkuntzak
Modelo dedikaturik ez duten hizkuntzetarako. Tailandiera, vietnamera, hindia, bengalera, hebreera, turkiera eta fartsiera hemen sartzen dira. Hizkuntz-nahasketa tratatzen du bandera espliziturik gabe.
Eskuin-Ezkerreko eta BiDi
Eskuin-ezkerrerako testua banaketa baino urrats gehiago behar ditu.
Gure bideak:
- Testua ordena logikora normalizatzen du.
- NER ordena horretan exekutatzen du.
- Entitate-posizioak ikusizko ordenara itzultzen ditu.
Lotutako aurrizkiak NER baino lehen kentzen ditugu eta ondoren itzultzen ditugu.
"Muhammad" -- izena soilik
"Muhammadi" -- "Muhammad-en" (aurrizkia lotuta)
Kode-Aldaketa
Benetan egindako dokumentuek askotan hizkuntzak lerro bakarrean nahasten dituzte.
"El meeting con John es at 3pm"
"Gaur John-ekin shopping-era joan naiz"
Gure bideak hizkuntzaren arabera banatzen du. Modelo egokia exekutatzen du zati bakoitzean. Ondoren emaitzak posizioen maparekin batzen ditu.
Barne-Benchmarkak
Hizkuntza nahastuaren barne-proba emaitzak:
| Egoera | F1 |
|---|---|
| Ingelesa soilik | %91 |
| Alemana soilik | %88 |
| Arabiera soilik | %79 |
| Txinera soilik | %81 |
| Ingeles-Arabiera nahasketa | %83 |
| Ingeles-Txinera nahasketa | %84 |
| Ingeles-Alemana nahasketa | %89 |
Konfigurazio Oharrak
Mahaigaineko aplikazioak automatikoki detektatzen du hizkuntza dokumentu bakoitzeko. Hizkuntz-nahasketa duten fitxategietarako, segmentu bakoitza modelo egokiarekin prozesatzen du. Eskuzko urratsa ez da behar.
Ezarri hizkuntza APIan dakizunean:
{
"text": "Muhammad bin Abdullah",
"language": "ar"
}
Erabili auto-detekzioa ez dakizunean:
{
"text": "Muhammad bin Abdullah",
"language": "auto"
}
Eredukzio pertsonalizatuek tokiko zenbakiak estali beharko lirateke:
# Latinezko langile IDa
EMP-[0-9]{6}
# Arabierako langile IDa (arabiar-indiar zenbakiak barne)
mozetsu-[0-9]{6}
Ikusi entitate-zerrenda osoa. API konfiguratzeko, bisitatu API funtzionalitateen orrialdea. Gure GDPR betetze gidak detekzio-aldeek datu-babese legean nola eragiten duten estaltzen du.
anonym.legal-ek hiru mailako NER pila bat erabiltzen du -- spaCy, Stanza eta XLM-RoBERTa -- PII detekzio koherenteekin 48 hizkuntza estaltzeko.