Fjöltyngdar NER: Áskoranir í PII-greiningu
Uppfært fyrir 2026
Nákvæmnimunurinn
NER-líkön þjálfuð á ensku ná 85-92% F1 á staðlaðar prófanir. Beitu sömu líkönin á arabískan eða kínverskan texta. Nákvæmni fellur niður í 50-70%.
Við PII-vinnslu er þetta gap vandamál. 70% tíðni þýðir að 30% viðkvæmra gagna fara óséð.
Ástæðurnar eru ekki villur. Þær koma af því hvernig ritkerfi eru ólík.
Fjórar grunnástæður
1. Orðamörk
Enska skiptir orðum með bilum. Tákenun er auðveld.
Kínverska hefur engin bil.
"张伟住在北京"
→ Skiptu fyrst: ["张伟", "住在", "北京"]
Líkan getur ekki merkt það sem það finnur ekki. Skiptingin verður að koma á undan NER.
Arabíska tengir stafi innan orðs. Styttri sérhljóðar eru sleppt. Texti rennur hægra til vinstri.
"محمد يعيش في دبي"
→ Engin styttri sérhljóðar, hægra til vinstri, tengdir stafir
2. Orðmyndunarfræði
Ensk sögn breytist á nokkra vegu. Arabíska notar rótarkerfi. Ein rót skapar tugi orða.
كتب (k-t-b, "skrifa")
→ كاتب (rithöfundur), كتاب (bók), مكتبة (bókasafn)
NER verður að þátta rætur til að finna nöfn í afleiddum orðformum.
3. Nafnasamvenjur
Lötin nöfn fara Fornafn Síðan Eftirnafn. Nöfn í RTL-tungumálum raða fjölskyldutengslum.
محمد بن عبد الله
(Múhameð son Abdúllahs)
Kínversk nöfn setja ætternafnið fyrst. Flest nöfn eru tveir eða þrír stafir á lengd.
张伟 (Zhang Wei) -- 2 stafir
欧阳修 (Ouyang Xiu) -- 3 stafir
Líkan smíðað á Vesturlægar nafnamyndir mun missa af þessum byggingum.
4. Textastefna
Sumar tungumál renna hægra til vinstri. Þegar RTL-texti inniheldur enskt nafn, skiptist sjónrænn röð og rökfræðileg röð. Þetta kallast BiDi-texti. Það krefst vandlegs þáttunar.
F1-skor eftir ritkerfi
| Tungumál | Ritkerfi | F1-bil | Stig |
|---|---|---|---|
| Enska | Latnesk | 85-92% | Lágt |
| Þýska | Latnesk | 82-88% | Lágt |
| Franska | Latnesk | 80-87% | Lágt |
| Spænska | Latnesk | 81-86% | Lágt |
| Rússneska | Kýrillísk | 75-83% | Miðlungs |
| Arabíska | Abjad | 55-75% | Hátt |
| Kínverska | Hanzi | 60-78% | Hátt |
| Japanska | Blandað | 65-80% | Hátt |
| Taí | Taí | 50-70% | Mjög hátt |
| Hindí | Devanagari | 60-75% | Hátt |
Ó-latnesk kerfi og vantar orðamörk lækka skor víðs vegar.
Þriggja þrepa lausn
Við notum þrjú þrep til að ná yfir 48 tungumál og ritkerfi.
Þrep 1: spaCy -- 25 tungumál
Fyrir tungumál með sterk, prófuð líkön. Þetta nær yfir ensku, þýsku, frönsku, spænsku, ítölsku, portúgalsku, hollensku, pólsku, rússnesku og grísku.
Þrep 2: Stanza -- Flókin tungumál
Stanford Stanza meðhöndlar arabísku, kínversku, japönsku og kóresku. Það keyrir orðaskiptingar og rótargreiningu áður en NER er keyrð.
Þrep 3: XLM-RoBERTa -- Lítillar bjargir tungumál
Fyrir tungumál með engin sérstök líkön. Taí, víetnamska, hindí, bengalska, hebreska, tyrkneska og persa fara hér. Það meðhöndlar blandaðar tungumálatexta án skýrra merkinga.
RTL og BiDi
Hægra til vinstri texti þarf aukaþrep umfram skiptingu.
Leiðslan okkar:
- Normalíserar texta í rökfræðilega röð.
- Keyrir NER á þeirri röð.
- Varpar einingastöðum til baka í sjónræna röð.
Við fjarlægjum tengdar forskeytingar áður en NER og bætum þeim aftur á eftir.
"محمد" -- nafn eingöngu
"لمحمد" -- "til Múhameðs" (forskeytis á)
Kóðaskipting
Raunveruleg skjöl blanda oft tungumálum á einni línu.
"El meeting con John es at 3pm"
"我今天跟John去shopping"
Leiðslan okkar skiptir eftir tungumáli. Hún keyrir rétt líkan á hvern hluta. Síðan sameinar hún niðurstöður með stöðuvörpun.
Innri viðmið
Niðurstöður úr innri prófunum á blönduðum tungumálagögnum:
| Sviðsmynd | F1 |
|---|---|
| Enska eingöngu | 91% |
| Þýska eingöngu | 88% |
| Arabíska eingöngu | 79% |
| Kínverska eingöngu | 81% |
| Enska-arabísk blanda | 83% |
| Enska-kínversk blanda | 84% |
| Enska-þýsk blanda | 89% |
Uppsetningaratriði
Skjáborðsforritið greinir tungumál sjálfkrafa á hvert skjal. Fyrir blandaðar tungumálaskrár vinnur það hvern hluta með réttu líkaninu. Engin handvirk skref eru þörf.
Stilltu tungumálið í API þegar þú veist það:
{
"text": "محمد بن عبد الله",
"language": "ar"
}
Notaðu sjálfvirka greiningu þegar þú veist það ekki:
{
"text": "محمد بن عبد الله",
"language": "auto"
}
Sértæk mynstur ættu að ná yfir staðbundna tölustafi:
# Latneskt starfsmannanúmer
EMP-[0-9]{6}
# Arabískt starfsmannanúmer (inniheldur arabísk-indverska tölustafi)
موظف-[٠-٩0-9]{6}
Sjá fullan einingalista. Fyrir API-uppsetningu, heimsæktu API-eiginleikasíðuna. GDPR-reglufylgnileiðbeiningar okkar fjallar um hvernig greiningarbil hafa áhrif á gagnaverndarlagagjörð.
anonym.legal notar þriggja þrapa NER-stafla -- spaCy, Stanza og XLM-RoBERTa -- til að ná yfir 48 tungumál með samkvæmri PII-greiningu.