By · Last updated 2026-02-26

Til baka á BloggTæknilegt

Fjöltyngt NER: Enska mistekst arabísku

NER-líkön þjálfuð á ensku ná 85-92% nákvæmni. Arabíska og kínverska? Oft 50-70%. Lærðu um tæknilegar áskoranir og hvernig á að smíða raunverulega fjöltyngdar lausnir.

February 26, 20268 mín lestur
NERmultilingualArabic NLPChinese NLPPII detection

Fjöltyngdar NER: Áskoranir í PII-greiningu

Uppfært fyrir 2026

Nákvæmnimunurinn

NER-líkön þjálfuð á ensku ná 85-92% F1 á staðlaðar prófanir. Beitu sömu líkönin á arabískan eða kínverskan texta. Nákvæmni fellur niður í 50-70%.

Við PII-vinnslu er þetta gap vandamál. 70% tíðni þýðir að 30% viðkvæmra gagna fara óséð.

Ástæðurnar eru ekki villur. Þær koma af því hvernig ritkerfi eru ólík.

Fjórar grunnástæður

1. Orðamörk

Enska skiptir orðum með bilum. Tákenun er auðveld.

Kínverska hefur engin bil.

"张伟住在北京"
→ Skiptu fyrst: ["张伟", "住在", "北京"]

Líkan getur ekki merkt það sem það finnur ekki. Skiptingin verður að koma á undan NER.

Arabíska tengir stafi innan orðs. Styttri sérhljóðar eru sleppt. Texti rennur hægra til vinstri.

"محمد يعيش في دبي"
→ Engin styttri sérhljóðar, hægra til vinstri, tengdir stafir

2. Orðmyndunarfræði

Ensk sögn breytist á nokkra vegu. Arabíska notar rótarkerfi. Ein rót skapar tugi orða.

كتب (k-t-b, "skrifa")
→ كاتب (rithöfundur), كتاب (bók), مكتبة (bókasafn)

NER verður að þátta rætur til að finna nöfn í afleiddum orðformum.

3. Nafnasamvenjur

Lötin nöfn fara Fornafn Síðan Eftirnafn. Nöfn í RTL-tungumálum raða fjölskyldutengslum.

محمد بن عبد الله
(Múhameð son Abdúllahs)

Kínversk nöfn setja ætternafnið fyrst. Flest nöfn eru tveir eða þrír stafir á lengd.

张伟 (Zhang Wei) -- 2 stafir
欧阳修 (Ouyang Xiu) -- 3 stafir

Líkan smíðað á Vesturlægar nafnamyndir mun missa af þessum byggingum.

4. Textastefna

Sumar tungumál renna hægra til vinstri. Þegar RTL-texti inniheldur enskt nafn, skiptist sjónrænn röð og rökfræðileg röð. Þetta kallast BiDi-texti. Það krefst vandlegs þáttunar.

F1-skor eftir ritkerfi

TungumálRitkerfiF1-bilStig
EnskaLatnesk85-92%Lágt
ÞýskaLatnesk82-88%Lágt
FranskaLatnesk80-87%Lágt
SpænskaLatnesk81-86%Lágt
RússneskaKýrillísk75-83%Miðlungs
ArabískaAbjad55-75%Hátt
KínverskaHanzi60-78%Hátt
JapanskaBlandað65-80%Hátt
TaíTaí50-70%Mjög hátt
HindíDevanagari60-75%Hátt

Ó-latnesk kerfi og vantar orðamörk lækka skor víðs vegar.

Þriggja þrepa lausn

Við notum þrjú þrep til að ná yfir 48 tungumál og ritkerfi.

Þrep 1: spaCy -- 25 tungumál

Fyrir tungumál með sterk, prófuð líkön. Þetta nær yfir ensku, þýsku, frönsku, spænsku, ítölsku, portúgalsku, hollensku, pólsku, rússnesku og grísku.

Þrep 2: Stanza -- Flókin tungumál

Stanford Stanza meðhöndlar arabísku, kínversku, japönsku og kóresku. Það keyrir orðaskiptingar og rótargreiningu áður en NER er keyrð.

Þrep 3: XLM-RoBERTa -- Lítillar bjargir tungumál

Fyrir tungumál með engin sérstök líkön. Taí, víetnamska, hindí, bengalska, hebreska, tyrkneska og persa fara hér. Það meðhöndlar blandaðar tungumálatexta án skýrra merkinga.

RTL og BiDi

Hægra til vinstri texti þarf aukaþrep umfram skiptingu.

Leiðslan okkar:

  1. Normalíserar texta í rökfræðilega röð.
  2. Keyrir NER á þeirri röð.
  3. Varpar einingastöðum til baka í sjónræna röð.

Við fjarlægjum tengdar forskeytingar áður en NER og bætum þeim aftur á eftir.

"محمد" -- nafn eingöngu
"لمحمد" -- "til Múhameðs" (forskeytis á)

Kóðaskipting

Raunveruleg skjöl blanda oft tungumálum á einni línu.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

Leiðslan okkar skiptir eftir tungumáli. Hún keyrir rétt líkan á hvern hluta. Síðan sameinar hún niðurstöður með stöðuvörpun.

Innri viðmið

Niðurstöður úr innri prófunum á blönduðum tungumálagögnum:

SviðsmyndF1
Enska eingöngu91%
Þýska eingöngu88%
Arabíska eingöngu79%
Kínverska eingöngu81%
Enska-arabísk blanda83%
Enska-kínversk blanda84%
Enska-þýsk blanda89%

Uppsetningaratriði

Skjáborðsforritið greinir tungumál sjálfkrafa á hvert skjal. Fyrir blandaðar tungumálaskrár vinnur það hvern hluta með réttu líkaninu. Engin handvirk skref eru þörf.

Stilltu tungumálið í API þegar þú veist það:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

Notaðu sjálfvirka greiningu þegar þú veist það ekki:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

Sértæk mynstur ættu að ná yfir staðbundna tölustafi:

# Latneskt starfsmannanúmer
EMP-[0-9]{6}

# Arabískt starfsmannanúmer (inniheldur arabísk-indverska tölustafi)
موظف-[٠-٩0-9]{6}

Sjá fullan einingalista. Fyrir API-uppsetningu, heimsæktu API-eiginleikasíðuna. GDPR-reglufylgnileiðbeiningar okkar fjallar um hvernig greiningarbil hafa áhrif á gagnaverndarlagagjörð.


anonym.legal notar þriggja þrapa NER-stafla -- spaCy, Stanza og XLM-RoBERTa -- til að ná yfir 48 tungumál með samkvæmri PII-greiningu.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.