By · Last updated 2026-02-26

Atgal į BlogąTechninė

Daugiakalbis NER: anglų kalba nepasiteisina arabų atveju

Anglų kalbai skirti NER modeliai pasiekia 85–92 % tikslumą. Arabų ir kinų kalbai? Dažnai 50–70 %. Sužinokite apie techninius iššūkius ir kaip kurti tikrai daugiakalbę sistemą.

February 26, 20268 min skaityti
NERmultilingualArabic NLPChinese NLPPII detection

Daugiakalbis NER: iššūkiai aptinkant ADA

Atnaujinta 2026 m.

Tikslumo spraga

NER modeliai, apmokyti anglų kalbai, standartiniuose testuose pasiekia 85–92 % F1. Taikykite tuos pačius modelius arabų arba kinų tekstui. Tikslumas krenta iki 50–70 %.

ADA darbui ši spraga yra problema. 70 % tikimybė reiškia, kad 30 % jautrių duomenų lieka nepastebėta.

Priežastys nėra klaidos. Jos kyla iš rašymo sistemų skirtumų.

Keturios pagrindinės priežastys

1. Žodžių ribos

Anglų kalba skiria žodžius tarpais. Tokenizacija yra paprasta.

Kinų kalboje tarpų nėra.

"张伟住在北京"
→ Pirma padalinti: ["张伟", "住在", "北京"]

Modelis negali žymėti to, ko neranda. Padalijimas turi eiti prieš NER.

Arabų kalba raidės jungiasi žodžio viduje. Trumpi balsiai praleidžiami. Tekstas eina iš dešinės į kairę.

"محمد يعيش في دبي"
→ Nėra trumpų balsių, iš dešinės į kairę, sujungtos raidės

2. Morfologija

Anglų kalbos veiksmažodžiai keičiasi keliais būdais. Arabų kalba naudoja šaknies sistemą. Viena šaknis sukuria dešimtis žodžių.

كتب (k-t-b, "rašyti")
→ كاتب (rašytojas), كتاب (knyga), مكتبة (biblioteka)

NER turi analizuoti šaknis, kad rastų vardus išvestų žodžių formose.

3. Vardų konvencijos

Lotyniški vardai eina Pirmas vardas, paskui Pavardė. RTL kalbų vardai susieja šeimos ryšius.

محمد بن عبد الله
(Mahometas, Abdulaho sūnus)

Kinų kalboje šeimos vardas eina pirmas. Dauguma vardų sudaryti iš dviejų arba trijų simbolių.

张伟 (Zhang Wei) — 2 simboliai
欧阳修 (Ouyang Xiu) — 3 simboliai

Modelis, sukurtas pagal Vakarų vardų šablonus, praleis šias struktūras.

4. Teksto kryptis

Kai kurios kalbos rašomos iš dešinės į kairę. Kai RTL tekste yra angliškas vardas, vizualinė ir loginė tvarka išsiskiria. Tai vadinama BiDi tekstu. Jam reikia kruopštaus apdorojimo.

F1 balai pagal rašymo sistemą

KalbaRašymo sistemaF1 diapazonasLygis
AnglųLotynų85–92 %Žemas
VokiečiųLotynų82–88 %Žemas
PrancūzųLotynų80–87 %Žemas
IspanųLotynų81–86 %Žemas
RusųKirilica75–83 %Vidutinis
ArabųAbjad55–75 %Aukštas
KinųHanzis60–78 %Aukštas
JaponųMišrus65–80 %Aukštas
TajųTajų50–70 %Labai aukštas
HindiDevanagari60–75 %Aukštas

Ne lotynų sistemos ir trūkstamos žodžių ribos mažina balus visoje eilutėje.

Trijų pakopų sprendimas

Naudojame tris pakopas, kad apimtume 48 kalbas ir rašymo sistemas.

1 pakopa: spaCy – 25 kalbos

Kalboms, kurioms yra stiprūs, išbandyti modeliai. Tai apima anglų, vokiečių, prancūzų, ispanų, italų, portugalų, olandų, lenkų, rusų ir graikų kalbas.

2 pakopa: Stanza – sudėtingos kalbos

Stanfordo Stanza tvarko arabų, kinų, japonų ir korėjiečių kalbas. Ji atlieka žodžių padalijimą ir šaknų analizę prieš NER.

3 pakopa: XLM-RoBERTa – mažai išteklių kalboms

Kalboms, kurioms nėra dedikuotų modelių. Čia patenka tajų, vietnamiečių, hindi, bengalų, hebrajų, turkų ir persų kalbos. Ji tvarko mišraus kalbų teksto apdorojimą be aiškių žymių.

RTL ir BiDi

Dešinės-į-kairę teksto apdorojimui reikia papildomų žingsnių po padalijimo.

Mūsų konvejeris:

  1. Normalizuoja tekstą į loginę tvarką.
  2. Vykdo NER toje tvarkoje.
  3. Suskirsto esybių pozicijas atgal į vizualinę tvarką.

Mes nuimame prikibtus prefiksus prieš NER ir juos pridedame po jo.

"محمد" — tik vardas
"لمحمد" — "Mahometui" (prefiksas uždėtas)

Kodo persijungimas

Tikri dokumentai dažnai maišo kalbas vienoje eilutėje.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

Mūsų konvejeris dalija pagal kalbą. Kiekvienai daliai taikomas tinkamas modelis. Tada rezultatai sujungiami su pozicijų žymėjimu.

Vidiniai etalono rodikliai

Rezultatai iš vidinių testų su mišrių kalbų duomenimis:

ScenarijusF1
Tik anglų91 %
Tik vokiečių88 %
Tik arabų79 %
Tik kinų81 %
Anglų ir arabų mišinys83 %
Anglų ir kinų mišinys84 %
Anglų ir vokiečių mišinys89 %

Sąrankos pastabos

Programos kompiuteryje versija automatiškai aptinka kalbą kiekvienam dokumentui. Mišrių kalbų failams ji apdoroja kiekvieną segmentą tinkamu modeliu. Rankinis žingsnis nereikalingas.

Nurodykite kalbą API, kai ją žinote:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

Naudokite automatinį aptikimą, kai nežinote:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

Pasirinktiniai šablonai turėtų apimti vietovei būdingus skaitmenis:

# Lotyniška darbuotojo ID
EMP-[0-9]{6}

# Arabiška darbuotojo ID (apima arabiškus-indų skaitmenis)
موظف-[٠-٩0-9]{6}

Žr. pilną esybių sąrašą. API sąrankai apsilankykite API funkcijų puslapyje. Mūsų BDAR atitikties vadovas aprašo, kaip aptikimo spragos veikia duomenų apsaugos teisę.


anonym.legal naudoja trijų pakopų NER krūvą – spaCy, Stanza ir XLM-RoBERTa – kad apimtų 48 kalbas su nuosekliu ADA aptikimu.

Šaltiniai

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.