By · Last updated 2026-02-26

Bumalik sa BlogTeknikal

NER sa Maraming Wika: Nabibigo ang Ingles sa Arabe

Ang mga modelo ng NER na sinanay sa Ingles ay nakakamit ng 85-92% na katumpakan. Arabe at Tsino? Madalas na 50-70%. Alamin ang mga teknikal na hamon at kung paano bumuo ng tunay na multilingual na solusyon.

February 26, 20268 min basahin
NERmultilingualArabic NLPChinese NLPPII detection

NER sa Maraming Wika: Mga Hamon sa Pagtuklas ng PII

Na-update para sa 2026

Ang Agwat sa Katumpakan

Ang mga modelo ng NER na sinanay sa Ingles ay nakakamit ng 85-92% na F1 sa mga karaniwang pagsubok. Ilapat ang parehong mga modelo sa teksto ng Arabe o Tsino. Bumababa ang katumpakan sa 50-70%.

Para sa trabaho sa PII, ang agwat na iyon ay isang problema. Ang 70% na hit rate ay nangangahulugang 30% ng sensitibong datos ang hindi nakikita.

Ang mga sanhi ay hindi mga bug. Nagmumula ang mga ito sa pagkakaiba ng mga sistema ng pagsulat.

Apat na Pangunahing Sanhi

1. Mga Hangganan ng Salita

Hinahati ng Ingles ang mga salita gamit ang mga espasyo. Madali ang tokenization.

Walang espasyo ang Tsino.

"张伟住在北京"
→ Hatiin muna: ["张伟", "住在", "北京"]

Hindi maaaring mag-tag ang isang modelo ng hindi nito mahanap. Ang paghahati ay dapat mauna sa NER.

Nagtatali ang Arabe ng mga titik sa loob ng isang salita. Iniiwan ang mga maikling patinig. Tumatakbo ang teksto mula kanan pakaliwa.

"محمد يعيش في دبي"
→ Walang maikling patinig, kanan-pakaliwa, nakataling mga titik

2. Morpolohiya

Nag-iiba ang mga pandiwang Ingles sa ilang paraan. Gumagamit ang Arabe ng sistema ng ugat. Ang isang ugat ay lumilikha ng daan-daang salita.

كتب (k-t-b, "sumulat")
→ كاتب (manunulat), كتاب (libro), مكتبة (aklatan)

Kailangang i-parse ng NER ang mga ugat upang mahanap ang mga pangalan sa mga nagmulang anyo ng salita.

3. Mga Kombensyon ng Pangalan

Una ang pangalan ng tao sa mga pangalan sa Latin, pagkatapos ay apelyido. Nagtatali ang mga pangalan sa mga wikang RTL ng mga ugnayan ng pamilya.

محمد بن عبد الله
(Muhammad anak ng Abdullah)

Sa Tsino, ang pangalan ng pamilya ay unang nilalagay. Karamihan sa mga pangalan ay dalawa o tatlong karakter ang haba.

张伟 (Zhang Wei) — 2 karakter
欧阳修 (Ouyang Xiu) — 3 karakter

Ang isang modelo na itinayo sa mga pattern ng pangalan ng Kanluran ay mapalampas ang mga istrukturang ito.

4. Direksyon ng Teksto

Ang ilang mga wika ay tumatakbo mula kanan pakaliwa. Kapag ang teksto ng RTL ay nagtataglay ng pangalang Ingles, ang visual na pagkakasunud-sunod at ang lohikal na pagkakasunud-sunod ay naghihiwalay. Ito ay tinatawag na BiDi text. Nangangailangan ito ng maingat na pag-parse.

Mga F1 Score ayon sa Sistema ng Pagsulat

WikaSistema ng PagsulatSaklaw ng F1Antas
InglesLatin85-92%Mababa
AlemanLatin82-88%Mababa
PransesLatin80-87%Mababa
EspanyolLatin81-86%Mababa
RusoCyrillic75-83%Katamtaman
ArabeAbjad55-75%Mataas
TsinoHanzi60-78%Mataas
HaponHalo65-80%Mataas
ThaiThai50-70%Napakataas
HindiDevanagari60-75%Mataas

Ang mga sistema na hindi Latin at mga nawawalang agwat ng salita ay nagpapababa ng mga marka sa lahat ng dako.

Solusyon sa Tatlong Antas

Gumagamit kami ng tatlong antas upang masaklaw ang 48 wika at mga sistema ng pagsulat.

Antas 1: spaCy — 25 Wika

Para sa mga wika na may malakas, nasubok na mga modelo. Sumasaklaw ito sa Ingles, Aleman, Pranses, Espanyol, Italyano, Portuges, Dutch, Polish, Ruso, at Griyego.

Antas 2: Stanza — Mga Kumplikadong Wika

Hinahawakan ng Stanford Stanza ang Arabe, Tsino, Hapon, at Koreano. Nagpapatakbo ito ng mga paghahati ng salita at pagsusuri ng ugat bago ang NER.

Antas 3: XLM-RoBERTa — Mga Wikang Mababa ang Mapagkukunan

Para sa mga wika na walang dedicated na mga modelo. Ang Thai, Vietnamese, Hindi, Bengali, Hebrew, Turkish, at Farsi ay napupunta dito. Hinahawakan nito ang mixed-language na teksto nang walang anumang explicit na mga flag na kailangan.

RTL at BiDi

Kailangan ng mga karagdagang hakbang ang teksto na kanan-pakaliwa lampas sa paghahati.

Ang aming pipeline:

  1. Nagno-normalize ng teksto sa lohikal na pagkakasunud-sunod.
  2. Nagpapatakbo ng NER sa pagkakasunud-sunod na iyon.
  3. Nagmamapa ng mga posisyon ng entidad pabalik sa visual na pagkakasunud-sunod.

Inaalis namin ang mga nakakapit na prefix bago ang NER at idinaragdag ang mga ito pabalik pagkatapos.

"محمد"  — pangalan lamang
"لمحمد" — "para kay Muhammad" (prefix na naka-on)

Paglipat ng Code

Madalas na naghahalo ang mga tunay na dokumento ng mga wika sa isang linya.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

Hinahati ng aming pipeline ayon sa wika. Nagpapatakbo ito ng tamang modelo sa bawat bahagi. Pagkatapos ay pinagsasama nito ang mga resulta na may pagmamapa ng posisyon.

Mga Panloob na Benchmark

Mga resulta mula sa mga panloob na pagsubok sa mixed-language na datos:

SenaryoF1
Ingles lamang91%
Aleman lamang88%
Arabe lamang79%
Tsino lamang81%
Halo ng Ingles-Arabe83%
Halo ng Ingles-Tsino84%
Halo ng Ingles-Aleman89%

Mga Tala sa Setup

Ang desktop app ay awtomatikong nag-dede-detect ng wika bawat dokumento. Para sa mga mixed-language na file, pinoproseso nito ang bawat segment gamit ang tamang modelo. Walang manu-manong hakbang ang kailangan.

Itakda ang wika sa API kapag alam mo ito:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

Gamitin ang auto-detect kapag hindi mo alam:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

Ang mga custom na pattern ay dapat sumasaklaw sa mga digit na partikular sa locale:

# Latin na ID ng empleyado
EMP-[0-9]{6}

# Arabic na ID ng empleyado (kasama ang mga Arabic-Indic na digit)
موظف-[٠-٩0-9]{6}

Tingnan ang buong listahan ng entidad. Para sa setup ng API, bisitahin ang pahina ng mga tampok ng API. Sinasaklaw ng aming gabay sa pagsunod sa GDPR kung paano nakakaapekto ang mga agwat sa pagtuklas sa batas ng proteksyon ng datos.


Gumagamit ang anonym.legal ng three-tier NER stack — spaCy, Stanza, at XLM-RoBERTa — upang masaklaw ang 48 wika na may pare-parehong pagtuklas ng PII.

Mga Pinagmulan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.