By · Last updated 2026-02-26

Itzuli BlogeraTeknikoa

Hizkuntza Anitzeko NER: Ingelesak Arabiera Huts Egiten Du

NER modeloek ingelesean %85-92ko zehaztasuna lortzen dute. Arabieran eta txineran? Askotan %50-70. Ikasi idazketa-sistemen arteko erronka teknikoak eta nola eraiki benetako hizkuntza anitzeko sistema bat.

February 26, 20268 min irakurri
NERmultilingualArabic NLPChinese NLPPII detection

Hizkuntza Anitzeko NER: PII Detekzioko Erronkak

2026rako eguneratua

Zehaztasun Aldea

Ingelesean trebatutako NER modeloek %85-92ko F1 lortzen dute estandar-probetan. Modelo berdinak arabiera edo txinera testuan aplikatu. Zehaztasunak %50-70era jaisten da.

PII lanerako, alde hori arazo bat da. %70eko asmatu-tasa batek %30 datu sentikorra ikusi gabe uzten ditu.

Kausak ez dira akatsak. Idazketa-sistemek nola desberdintzen diren datoz.

Lau Erroko Kausa

1. Hitz-Mugak

Ingelesak hitzak zuriuneekin banatzen ditu. Tokenizazioa erraza da.

Txinerak ez du zuriunerik batere.

"Hau txinera testua da"
-> Lehenik banatu: ["hitz1", "hitz2", "hitz3"]

Modeloak ezin du etiketatu aurkitu ezin duena. Banaketa NER baino lehen etorri behar da.

Arabierak hizkiak hitzen barruan lotzen ditu. Bokal laburrak kanpoan uzten dira. Testua eskuinetik ezkerrera doa.

"Muhammad Dubain bizi da"
-> Ez bokal laburrik, eskuinetik ezkerrera, hizki lotuak

2. Morfologia

Ingeleseko aditzak modu gutxitan aldatzen dira. Arabierak erro-sistema bat erabiltzen du. Erro bakar batek dozenaka hitz sortzen ditu.

k-t-b ("idatzi")
-> idazlea, liburua, liburutegia

NERk erroak analizatu behar ditu izen eratorritako hitz-formetik aurkitzeko.

3. Izen-Ohiturak

Latin izenak Lehen ondoren Azken joaten dira. Eskuin-ezkerrerako hizkuntzetan izenak familia-loturak kateatzen dituzte.

Muhammad bn Abdullah
(Muhamad Abdullah-ren semea)

Txinera izenek familia-izena lehenik jartzen dute. Izen gehienak bi edo hiru karaktere luzekoak dira.

Zhang Wei -- 2 karaktere
Ouyang Xiu -- 3 karaktere

Mendebaldeko izen-ereduetan eraikitako modeloek egitura hauek galduko dituzte.

4. Testu-Norabidea

Zenbait hizkuntza eskuinetik ezkerrera doaz. Eskuin-ezkerrerako testuan ingelesezko izen bat dagoenean, ikusizko ordena eta ordena logikoa banandu egiten dira. Honi BiDi testua deitzen zaio. Zaindu beharreko analizakia eskatzen du.

Idazketa-Sistemaren Araberako F1 Puntuazioak

HizkuntzaIdazketa-SistemaF1 TarteaMaila
IngelesaLatina%85-92Baxua
AlemanaLatina%82-88Baxua
FrantsesaLatina%80-87Baxua
GaztelaniaLatina%81-86Baxua
ErrusieraZirilikoa%75-83Ertaina
ArabieraAbjad%55-75Altua
TxineraHanzi%60-78Altua
JaponeraNahasia%65-80Altua
TailandieraTailandiar%50-70Oso Altua
HindiaDevanagari%60-75Altua

Latin ez diren sistemek eta hitz-banaketarik ezak puntuazioak orokorrean jaistearen eragile dira.

Hiru Mailako Irtenbidea

48 hizkuntza eta idazketa-sistema estaltzeko hiru maila erabiltzen ditugu.

1. Maila: spaCy -- 25 Hizkuntza

Modelo sendo eta probatudun hizkuntzetarako. Honek estaltzen ditu ingelesa, alemana, frantsesa, gaztelania, italiera, portugesa, nederlandera, poloniera, errusiera eta greziera.

2. Maila: Stanza -- Hizkuntza Konplexuak

Stanfordeko Stanza-k arabiera, txinera, japonera eta koreera tratatzen ditu. Hitz-banaketako eta erro-analisiko urratsak NER baino lehen exekutatzen ditu.

3. Maila: XLM-RoBERTa -- Baliabide Gutxiko Hizkuntzak

Modelo dedikaturik ez duten hizkuntzetarako. Tailandiera, vietnamera, hindia, bengalera, hebreera, turkiera eta fartsiera hemen sartzen dira. Hizkuntz-nahasketa tratatzen du bandera espliziturik gabe.

Eskuin-Ezkerreko eta BiDi

Eskuin-ezkerrerako testua banaketa baino urrats gehiago behar ditu.

Gure bideak:

  1. Testua ordena logikora normalizatzen du.
  2. NER ordena horretan exekutatzen du.
  3. Entitate-posizioak ikusizko ordenara itzultzen ditu.

Lotutako aurrizkiak NER baino lehen kentzen ditugu eta ondoren itzultzen ditugu.

"Muhammad" -- izena soilik
"Muhammadi" -- "Muhammad-en" (aurrizkia lotuta)

Kode-Aldaketa

Benetan egindako dokumentuek askotan hizkuntzak lerro bakarrean nahasten dituzte.

"El meeting con John es at 3pm"
"Gaur John-ekin shopping-era joan naiz"

Gure bideak hizkuntzaren arabera banatzen du. Modelo egokia exekutatzen du zati bakoitzean. Ondoren emaitzak posizioen maparekin batzen ditu.

Barne-Benchmarkak

Hizkuntza nahastuaren barne-proba emaitzak:

EgoeraF1
Ingelesa soilik%91
Alemana soilik%88
Arabiera soilik%79
Txinera soilik%81
Ingeles-Arabiera nahasketa%83
Ingeles-Txinera nahasketa%84
Ingeles-Alemana nahasketa%89

Konfigurazio Oharrak

Mahaigaineko aplikazioak automatikoki detektatzen du hizkuntza dokumentu bakoitzeko. Hizkuntz-nahasketa duten fitxategietarako, segmentu bakoitza modelo egokiarekin prozesatzen du. Eskuzko urratsa ez da behar.

Ezarri hizkuntza APIan dakizunean:

{
  "text": "Muhammad bin Abdullah",
  "language": "ar"
}

Erabili auto-detekzioa ez dakizunean:

{
  "text": "Muhammad bin Abdullah",
  "language": "auto"
}

Eredukzio pertsonalizatuek tokiko zenbakiak estali beharko lirateke:

# Latinezko langile IDa
EMP-[0-9]{6}

# Arabierako langile IDa (arabiar-indiar zenbakiak barne)
mozetsu-[0-9]{6}

Ikusi entitate-zerrenda osoa. API konfiguratzeko, bisitatu API funtzionalitateen orrialdea. Gure GDPR betetze gidak detekzio-aldeek datu-babese legean nola eragiten duten estaltzen du.


anonym.legal-ek hiru mailako NER pila bat erabiltzen du -- spaCy, Stanza eta XLM-RoBERTa -- PII detekzio koherenteekin 48 hizkuntza estaltzeko.

Iturriak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.