Fjöltyngdar NER: Áskoranir í PII-greiningu

Uppfært fyrir 2026

Nákvæmnimunurinn

NER-líkön þjálfuð á ensku ná 85-92% F1 á staðlaðar prófanir. Beitu sömu líkönin á arabískan eða kínverskan texta. Nákvæmni fellur niður í 50-70%.

Við PII-vinnslu er þetta gap vandamál. 70% tíðni þýðir að 30% viðkvæmra gagna fara óséð.

Ástæðurnar eru ekki villur. Þær koma af því hvernig ritkerfi eru ólík.

Fjórar grunnástæður

1. Orðamörk

Enska skiptir orðum með bilum. Tákenun er auðveld.

Kínverska hefur engin bil.

"张伟住在北京"
→ Skiptu fyrst: ["张伟", "住在", "北京"]

Líkan getur ekki merkt það sem það finnur ekki. Skiptingin verður að koma á undan NER.

Arabíska tengir stafi innan orðs. Styttri sérhljóðar eru sleppt. Texti rennur hægra til vinstri.

"محمد يعيش في دبي"
→ Engin styttri sérhljóðar, hægra til vinstri, tengdir stafir

2. Orðmyndunarfræði

Ensk sögn breytist á nokkra vegu. Arabíska notar rótarkerfi. Ein rót skapar tugi orða.

كتب (k-t-b, "skrifa")
→ كاتب (rithöfundur), كتاب (bók), مكتبة (bókasafn)

NER verður að þátta rætur til að finna nöfn í afleiddum orðformum.

3. Nafnasamvenjur

Lötin nöfn fara Fornafn Síðan Eftirnafn. Nöfn í RTL-tungumálum raða fjölskyldutengslum.

محمد بن عبد الله
(Múhameð son Abdúllahs)

Kínversk nöfn setja ætternafnið fyrst. Flest nöfn eru tveir eða þrír stafir á lengd.

张伟 (Zhang Wei) -- 2 stafir
欧阳修 (Ouyang Xiu) -- 3 stafir

Líkan smíðað á Vesturlægar nafnamyndir mun missa af þessum byggingum.

4. Textastefna

Sumar tungumál renna hægra til vinstri. Þegar RTL-texti inniheldur enskt nafn, skiptist sjónrænn röð og rökfræðileg röð. Þetta kallast BiDi-texti. Það krefst vandlegs þáttunar.

F1-skor eftir ritkerfi

Tungumál	Ritkerfi	F1-bil	Stig
Enska	Latnesk	85-92%	Lágt
Þýska	Latnesk	82-88%	Lágt
Franska	Latnesk	80-87%	Lágt
Spænska	Latnesk	81-86%	Lágt
Rússneska	Kýrillísk	75-83%	Miðlungs
Arabíska	Abjad	55-75%	Hátt
Kínverska	Hanzi	60-78%	Hátt
Japanska	Blandað	65-80%	Hátt
Taí	Taí	50-70%	Mjög hátt
Hindí	Devanagari	60-75%	Hátt

Ó-latnesk kerfi og vantar orðamörk lækka skor víðs vegar.

Þriggja þrepa lausn

Við notum þrjú þrep til að ná yfir 48 tungumál og ritkerfi.

Þrep 1: spaCy -- 25 tungumál

Fyrir tungumál með sterk, prófuð líkön. Þetta nær yfir ensku, þýsku, frönsku, spænsku, ítölsku, portúgalsku, hollensku, pólsku, rússnesku og grísku.

Þrep 2: Stanza -- Flókin tungumál

Stanford Stanza meðhöndlar arabísku, kínversku, japönsku og kóresku. Það keyrir orðaskiptingar og rótargreiningu áður en NER er keyrð.

Þrep 3: XLM-RoBERTa -- Lítillar bjargir tungumál

Fyrir tungumál með engin sérstök líkön. Taí, víetnamska, hindí, bengalska, hebreska, tyrkneska og persa fara hér. Það meðhöndlar blandaðar tungumálatexta án skýrra merkinga.

RTL og BiDi

Hægra til vinstri texti þarf aukaþrep umfram skiptingu.

Leiðslan okkar:

Normalíserar texta í rökfræðilega röð.
Keyrir NER á þeirri röð.
Varpar einingastöðum til baka í sjónræna röð.

Við fjarlægjum tengdar forskeytingar áður en NER og bætum þeim aftur á eftir.

"محمد" -- nafn eingöngu
"لمحمد" -- "til Múhameðs" (forskeytis á)

Kóðaskipting

Raunveruleg skjöl blanda oft tungumálum á einni línu.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

Leiðslan okkar skiptir eftir tungumáli. Hún keyrir rétt líkan á hvern hluta. Síðan sameinar hún niðurstöður með stöðuvörpun.

Innri viðmið

Niðurstöður úr innri prófunum á blönduðum tungumálagögnum:

Sviðsmynd	F1
Enska eingöngu	91%
Þýska eingöngu	88%
Arabíska eingöngu	79%
Kínverska eingöngu	81%
Enska-arabísk blanda	83%
Enska-kínversk blanda	84%
Enska-þýsk blanda	89%

Uppsetningaratriði

Skjáborðsforritið greinir tungumál sjálfkrafa á hvert skjal. Fyrir blandaðar tungumálaskrár vinnur það hvern hluta með réttu líkaninu. Engin handvirk skref eru þörf.

Stilltu tungumálið í API þegar þú veist það:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

Notaðu sjálfvirka greiningu þegar þú veist það ekki:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

Sértæk mynstur ættu að ná yfir staðbundna tölustafi:

# Latneskt starfsmannanúmer
EMP-[0-9]{6}

# Arabískt starfsmannanúmer (inniheldur arabísk-indverska tölustafi)
موظف-[٠-٩0-9]{6}

Sjá fullan einingalista. Fyrir API-uppsetningu, heimsæktu API-eiginleikasíðuna. GDPR-reglufylgnileiðbeiningar okkar fjallar um hvernig greiningarbil hafa áhrif á gagnaverndarlagagjörð.

anonym.legal notar þriggja þrapa NER-stafla -- spaCy, Stanza og XLM-RoBERTa -- til að ná yfir 48 tungumál með samkvæmri PII-greiningu.

Heimildir

Tengdar Greinar

Tæknilegt

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

Byrjaðu Ókeypis Prufu Skoða Eiginleika

Fjöltyngt NER: Enska mistekst arabísku

Fjöltyngdar NER: Áskoranir í PII-greiningu

Nákvæmnimunurinn

Fjórar grunnástæður

1. Orðamörk

2. Orðmyndunarfræði

3. Nafnasamvenjur

4. Textastefna

F1-skor eftir ritkerfi

Þriggja þrepa lausn

Þrep 1: spaCy -- 25 tungumál

Þrep 2: Stanza -- Flókin tungumál

Þrep 3: XLM-RoBERTa -- Lítillar bjargir tungumál

RTL og BiDi

Kóðaskipting

Innri viðmið

Uppsetningaratriði

Heimildir

Tengdar Greinar

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ertu tilbúinn að vernda gögnin þín?

Fjöltyngt NER: Enska mistekst arabísku

Fjöltyngdar NER: Áskoranir í PII-greiningu

Nákvæmnimunurinn

Fjórar grunnástæður

1. Orðamörk

2. Orðmyndunarfræði

3. Nafnasamvenjur

4. Textastefna

F1-skor eftir ritkerfi

Þriggja þrepa lausn

Þrep 1: spaCy -- 25 tungumál

Þrep 2: Stanza -- Flókin tungumál

Þrep 3: XLM-RoBERTa -- Lítillar bjargir tungumál

RTL og BiDi

Kóðaskipting

Innri viðmið

Uppsetningaratriði

Heimildir

Tengdar Greinar

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ertu tilbúinn að vernda gögnin þín?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow