NER Multilingue: Reptes en la Deteccio de PII
Actualitzat per al 2026
La Bretxa de Precisio
Els models NER entrenats en angles assoleixen un F1 del 85-92% en proves estandard. Apliqueu els mateixos models a text arab o xines. La precisio cau fins al 50-70%.
Per al treball amb PII, aquesta bretxa es un problema. Un percentatge d'encert del 70% significa que el 30% de les dades sensibles passen desapercebudes.
Les causes no son errors. Provenen de com difereixen els sistemes d'escriptura.
Quatre Causes Arrel
1. Limits de Paraules
L'angles separa les paraules amb espais. La tokenitzacio es senzilla.
El xines no te espais en absolut.
"Zhang Wei viu a Beijing"
-> Dividiu primer: ["Zhang Wei", "viu a", "Beijing"]
Un model no pot etiquetar el que no pot trobar. La divisio ha de venir abans del NER.
L'arab enllaca lletres dins d'una paraula. Les vocals breus s'ometen. El text va de dreta a esquerra.
"Muhammad viu a Dubai"
-> Sense vocals breus, de dreta a esquerra, lletres enllaçades
2. Morfologia
Els verbs en angles canvien de poques maneres. L'arab utilitza un sistema de rels. Una arrel crea desenes de paraules.
k-t-b ("escriure")
-> escriptor, llibre, biblioteca
El NER ha d'analitzar les rels per trobar noms en formes de paraula derivades.
3. Convencions de Noms
Els noms llatins van Primer i despres Cognom. Els noms en idiomes RTL encadenen vincles familiars.
Muhammad ibn Abd Allah
(Muhammad fill d'Abdullah)
Els noms xinesos posen el cognom primer. La majoria dels noms tenen dos o tres caracters.
Zhang Wei - 2 caracters
Ouyang Xiu - 3 caracters
Un model construida sobre patrons de noms occidentals no detectara aquestes estructures.
4. Direccio del Text
Alguns idiomes van de dreta a esquerra. Quan el text RTL conte un nom en angles, l'ordre visual i l'ordre logic es separen. Aixo s'anomena text BiDi. Requereix un analisi acurat.
Puntuacions F1 per Sistema d'Escriptura
| Idioma | Sistema d'Escriptura | Rang F1 | Nivell |
|---|---|---|---|
| Angles | Llati | 85-92% | Baix |
| Alemany | Llati | 82-88% | Baix |
| Frances | Llati | 80-87% | Baix |
| Espanyol | Llati | 81-86% | Baix |
| Rus | Ciril.lic | 75-83% | Mitja |
| Arab | Abjad | 55-75% | Alt |
| Xines | Hanzi | 60-78% | Alt |
| Japones | Mixt | 65-80% | Alt |
| Tailandes | Tailandes | 50-70% | Molt Alt |
| Hindi | Devanagari | 60-75% | Alt |
Els sistemes no llatins i les paraules sense espais redueixen les puntuacions en general.
Solucio de Tres Nivells
Utilitzem tres nivells per cobrir 48 idiomes i sistemes d'escriptura.
Nivell 1: spaCy - 25 Idiomes
Per a idiomes amb models forts i provats. Aixo cobreix angles, alemany, frances, espanyol, italia, portugues, holandes, polones, rus i grec.
Nivell 2: Stanza - Idiomes Complexos
Stanford Stanza gestiona l'arab, el xines, el japones i el corea. Executa divisions de paraules i analisi d'arrels abans del NER.
Nivell 3: XLM-RoBERTa - Idiomes de Baixos Recursos
Per a idiomes sense models dedicats. El tailandes, el vietnamita, l'hindi, el bengali, l'hebreu, el turc i el persa van aqui. Gestiona text mixt sense marques explicites.
RTL i BiDi
El text de dreta a esquerra necessita passos addicionals mes enlla de la divisio.
El nostre pipeline:
- Normalitza el text en ordre logic.
- Executa NER en aquest ordre.
- Torna a mapear les posicions d'entitats a l'ordre visual.
Eliminem els prefixos adjunts abans del NER i els afegim despres.
"Muhammad" - nomes el nom
"li Muhammad" - "a Muhammad" (prefix activat)
Canvi de Codi
Els documents reals sovint barregen idiomes en una sola linia.
"El meeting amb John es at 3pm"
"Avui he anat de shopping amb John"
El nostre pipeline divideix per idioma. Executa el model correcte en cada part. Despres uneix els resultats amb mapatge de posicions.
Benchmarks Interns
Resultats de proves internes en dades multilingues:
| Escenari | F1 |
|---|---|
| Nomes angles | 91% |
| Nomes alemany | 88% |
| Nomes arab | 79% |
| Nomes xines | 81% |
| Barreja angles-arab | 83% |
| Barreja angles-xines | 84% |
| Barreja angles-alemany | 89% |
Notes de Configuracio
L'aplicacio d'escriptori detecta automaticament l'idioma per document. Per a fitxers amb idiomes mixtos, processa cada segment amb el model correcte. No cal cap pas manual.
Especifiqueu l'idioma a l'API quan el conegueu:
{
"text": "Muhammad ibn Abd Allah",
"language": "ar"
}
Useu la detecci automatica quan no el conegueu:
{
"text": "Muhammad ibn Abd Allah",
"language": "auto"
}
Els patrons personalitzats han de cobrir els digits especifics del lloc:
# ID d'empleat llati
EMP-[0-9]{6}
# ID d'empleat arab (inclou digits arabs-indics)
MOZAF-[0-9]{6}
Vegeu la llista completa d'entitats. Per a la configuracio de l'API, visiteu la pagina de funcions de l'API. La nostra guia de compliment del RGPD cobreix com les llacunes de deteccio afecten la legislacio de proteccio de dades.
anonym.legal utilitza una pila NER de tres nivells - spaCy, Stanza i XLM-RoBERTa - per cobrir 48 idiomes amb una deteccio de PII consistent.