NER Multilingue: Reptes en la Deteccio de PII

Actualitzat per al 2026

La Bretxa de Precisio

Els models NER entrenats en angles assoleixen un F1 del 85-92% en proves estandard. Apliqueu els mateixos models a text arab o xines. La precisio cau fins al 50-70%.

Per al treball amb PII, aquesta bretxa es un problema. Un percentatge d'encert del 70% significa que el 30% de les dades sensibles passen desapercebudes.

Les causes no son errors. Provenen de com difereixen els sistemes d'escriptura.

Quatre Causes Arrel

1. Limits de Paraules

L'angles separa les paraules amb espais. La tokenitzacio es senzilla.

El xines no te espais en absolut.

"Zhang Wei viu a Beijing"
-> Dividiu primer: ["Zhang Wei", "viu a", "Beijing"]

Un model no pot etiquetar el que no pot trobar. La divisio ha de venir abans del NER.

L'arab enllaca lletres dins d'una paraula. Les vocals breus s'ometen. El text va de dreta a esquerra.

"Muhammad viu a Dubai"
-> Sense vocals breus, de dreta a esquerra, lletres enllaçades

2. Morfologia

Els verbs en angles canvien de poques maneres. L'arab utilitza un sistema de rels. Una arrel crea desenes de paraules.

k-t-b ("escriure")
-> escriptor, llibre, biblioteca

El NER ha d'analitzar les rels per trobar noms en formes de paraula derivades.

3. Convencions de Noms

Els noms llatins van Primer i despres Cognom. Els noms en idiomes RTL encadenen vincles familiars.

Muhammad ibn Abd Allah
(Muhammad fill d'Abdullah)

Els noms xinesos posen el cognom primer. La majoria dels noms tenen dos o tres caracters.

Zhang Wei - 2 caracters
Ouyang Xiu - 3 caracters

Un model construida sobre patrons de noms occidentals no detectara aquestes estructures.

4. Direccio del Text

Alguns idiomes van de dreta a esquerra. Quan el text RTL conte un nom en angles, l'ordre visual i l'ordre logic es separen. Aixo s'anomena text BiDi. Requereix un analisi acurat.

Puntuacions F1 per Sistema d'Escriptura

Idioma	Sistema d'Escriptura	Rang F1	Nivell
Angles	Llati	85-92%	Baix
Alemany	Llati	82-88%	Baix
Frances	Llati	80-87%	Baix
Espanyol	Llati	81-86%	Baix
Rus	Ciril.lic	75-83%	Mitja
Arab	Abjad	55-75%	Alt
Xines	Hanzi	60-78%	Alt
Japones	Mixt	65-80%	Alt
Tailandes	Tailandes	50-70%	Molt Alt
Hindi	Devanagari	60-75%	Alt

Els sistemes no llatins i les paraules sense espais redueixen les puntuacions en general.

Solucio de Tres Nivells

Utilitzem tres nivells per cobrir 48 idiomes i sistemes d'escriptura.

Nivell 1: spaCy - 25 Idiomes

Per a idiomes amb models forts i provats. Aixo cobreix angles, alemany, frances, espanyol, italia, portugues, holandes, polones, rus i grec.

Nivell 2: Stanza - Idiomes Complexos

Stanford Stanza gestiona l'arab, el xines, el japones i el corea. Executa divisions de paraules i analisi d'arrels abans del NER.

Nivell 3: XLM-RoBERTa - Idiomes de Baixos Recursos

Per a idiomes sense models dedicats. El tailandes, el vietnamita, l'hindi, el bengali, l'hebreu, el turc i el persa van aqui. Gestiona text mixt sense marques explicites.

RTL i BiDi

El text de dreta a esquerra necessita passos addicionals mes enlla de la divisio.

El nostre pipeline:

Normalitza el text en ordre logic.
Executa NER en aquest ordre.
Torna a mapear les posicions d'entitats a l'ordre visual.

Eliminem els prefixos adjunts abans del NER i els afegim despres.

"Muhammad" - nomes el nom
"li Muhammad" - "a Muhammad" (prefix activat)

Canvi de Codi

Els documents reals sovint barregen idiomes en una sola linia.

"El meeting amb John es at 3pm"
"Avui he anat de shopping amb John"

El nostre pipeline divideix per idioma. Executa el model correcte en cada part. Despres uneix els resultats amb mapatge de posicions.

Benchmarks Interns

Resultats de proves internes en dades multilingues:

Escenari	F1
Nomes angles	91%
Nomes alemany	88%
Nomes arab	79%
Nomes xines	81%
Barreja angles-arab	83%
Barreja angles-xines	84%
Barreja angles-alemany	89%

Notes de Configuracio

L'aplicacio d'escriptori detecta automaticament l'idioma per document. Per a fitxers amb idiomes mixtos, processa cada segment amb el model correcte. No cal cap pas manual.

Especifiqueu l'idioma a l'API quan el conegueu:

{
  "text": "Muhammad ibn Abd Allah",
  "language": "ar"
}

Useu la detecci automatica quan no el conegueu:

{
  "text": "Muhammad ibn Abd Allah",
  "language": "auto"
}

Els patrons personalitzats han de cobrir els digits especifics del lloc:

# ID d'empleat llati
EMP-[0-9]{6}

# ID d'empleat arab (inclou digits arabs-indics)
MOZAF-[0-9]{6}

Vegeu la llista completa d'entitats. Per a la configuracio de l'API, visiteu la pagina de funcions de l'API. La nostra guia de compliment del RGPD cobreix com les llacunes de deteccio afecten la legislacio de proteccio de dades.

anonym.legal utilitza una pila NER de tres nivells - spaCy, Stanza i XLM-RoBERTa - per cobrir 48 idiomes amb una deteccio de PII consistent.

Fonts

Articles Relacionats

Tècnic

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

Comença Prova Gratuïta Veure Funcions

NER Multilingue: L'Angles Falla en Arab

NER Multilingue: Reptes en la Deteccio de PII

La Bretxa de Precisio

Quatre Causes Arrel

1. Limits de Paraules

2. Morfologia

3. Convencions de Noms

4. Direccio del Text

Puntuacions F1 per Sistema d'Escriptura

Solucio de Tres Nivells

Nivell 1: spaCy - 25 Idiomes

Nivell 2: Stanza - Idiomes Complexos

Nivell 3: XLM-RoBERTa - Idiomes de Baixos Recursos

RTL i BiDi

Canvi de Codi

Benchmarks Interns

Notes de Configuracio

Fonts

Articles Relacionats

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Preparat per protegir les vostres dades?

NER Multilingue: L'Angles Falla en Arab

NER Multilingue: Reptes en la Deteccio de PII

La Bretxa de Precisio

Quatre Causes Arrel

1. Limits de Paraules

2. Morfologia

3. Convencions de Noms

4. Direccio del Text

Puntuacions F1 per Sistema d'Escriptura

Solucio de Tres Nivells

Nivell 1: spaCy - 25 Idiomes

Nivell 2: Stanza - Idiomes Complexos

Nivell 3: XLM-RoBERTa - Idiomes de Baixos Recursos

RTL i BiDi

Canvi de Codi

Benchmarks Interns

Notes de Configuracio

Fonts

Articles Relacionats

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Preparat per protegir les vostres dades?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow