NER ya Lugha Nyingi: Changamoto katika Ugunduzi wa PII
Imesasishwa kwa 2026
Pengo la Usahihi
Mifano ya NER iliyofunzwa kwa Kiingereza inafikia F1 ya 85–92% katika majaribio ya kawaida. Tumia mifano hiyo hiyo kwa matini ya Kiarabu au Kichina. Usahihi unashuka hadi 50–70%.
Kwa kazi ya PII, pengo hilo ni tatizo. Kiwango cha 70% cha mafanikio kunamaanisha 30% ya data nyeti haionekani.
Sababu si hitilafu. Zinatoka jinsi mifumo ya uandishi inavyotofautiana.
Sababu Nne za Msingi
1. Mipaka ya Maneno
Kiingereza hugawanya maneno kwa nafasi. Uashiriaji ni rahisi.
Kichina hakina nafasi kabisa.
``` "张伟住在北京" → Gawanya kwanza: ["张伟", "住在", "北京"] ```
Mfano hauwezi kuweka alama kinachokosa kupata. Kugawanya lazima kuje kabla ya NER.
Kiarabu huunganisha herufi ndani ya neno. Vokali fupi zinaachwa. Maandishi yanasomwa kulia kwenda kushoto.
``` "محمد يعيش في دبي" → Hakuna vokali fupi, kulia kwenda kushoto, herufi zilizoungwa ```
2. Mofolojia
Vitenzi vya Kiingereza hubadilika kwa njia chache. Kiarabu hutumia mfumo wa mizizi. Mzizi mmoja unaunda maneno mengi.
``` كتب (k-t-b, "kuandika") → كاتب (mwandishi), كتاب (kitabu), مكتبة (maktaba) ```
NER lazima ichanganue mizizi kupata majina katika maumbo ya maneno yaliyotokana.
3. Mifumo ya Majina
Majina ya Kilatini yanakwenda Kwanza kisha la Mwisho. Majina katika lugha za RTL yanaunganisha viungo vya familia.
``` محمد بن عبد الله (Muhammad mwana wa Abdullah) ```
Majina ya Kichina yanaweka jina la familia kwanza. Majina mengi yana herufi mbili au tatu.
``` 张伟 (Zhang Wei) — herufi 2 欧阳修 (Ouyang Xiu) — herufi 3 ```
Mfano uliojengwa kwa mifumo ya majina ya Magharibi utakosa muundo huu.
4. Mwelekeo wa Maandishi
Baadhi ya lugha zinaendesha kulia kwenda kushoto. Maandishi ya RTL yakishikilia jina la Kiingereza, mpangilio wa kuona na wa kimantiki unajitenga. Hii inaitwa matini ya BiDi. Inahitaji uchambuzi makini.
Alama za F1 kwa Mfumo wa Uandishi
| Lugha | Mfumo wa Uandishi | Kipimo cha F1 | Kiwango |
|---|---|---|---|
| Kiingereza | Kilatini | 85–92% | Chini |
| Kijerumani | Kilatini | 82–88% | Chini |
| Kifaransa | Kilatini | 80–87% | Chini |
| Kihispania | Kilatini | 81–86% | Chini |
| Kirusi | Cyrillic | 75–83% | Wastani |
| Kiarabu | Abjad | 55–75% | Juu |
| Kichina | Hanzi | 60–78% | Juu |
| Kijapani | Mchanganyiko | 65–80% | Juu |
| Kithai | Thai | 50–70% | Juu Sana |
| Kihindi | Devanagari | 60–75% | Juu |
Mifumo isiyo ya Kilatini na mapungufu ya maneno yanashuka alama kwa ujumla.
Suluhisho la Viwango Vitatu
Tunatumia viwango vitatu kufunika lugha 48 na mifumo ya uandishi.
Kiwango cha 1: spaCy — Lugha 25
Kwa lugha zenye mifano iliyoimarishwa na kujaribiwa. Inafunika Kiingereza, Kijerumani, Kifaransa, Kihispania, Kiitaliano, Kireno, Kiholanzi, Kipolishi, Kirusi, na Kigiriki.
Kiwango cha 2: Stanza — Lugha Ngumu
Stanford Stanza inashughulikia Kiarabu, Kichina, Kijapani, na Kikorea. Inafanya migawanyiko ya maneno na uchambuzi wa mizizi kabla ya NER.
Kiwango cha 3: XLM-RoBERTa — Lugha Zenye Rasilimali Chache
Kwa lugha ambazo hazina mifano maalum. Kithai, Kivietinamu, Kihindi, Kibengali, Kiebrania, Kituruki, na Kiajemi zinaenda hapa. Inashughulikia matini ya lugha mchanganyiko bila alama wazi inayohitajika.
RTL na BiDi
Matini ya kulia kwenda kushoto inahitaji hatua za ziada zaidi ya kugawanya.
Mfumo wetu:
- Unasawazisha matini kwa mpangilio wa kimantiki.
- Unaendesha NER kwa mpangilio huo.
- Unarejesha nafasi za viumbe kurudi kwa mpangilio wa kuona.
Tunaondoa viambishi vya awali vilivyoambatanishwa kabla ya NER na kuvirudisha baadaye.
``` "محمد" — jina tu "لمحمد" — "kwa Muhammad" (kiambishi cha awali kimewashwa) ```
Kubadilisha Msimbo
Hati halisi mara nyingi zinachanganya lugha katika mstari mmoja.
``` "El meeting con John es at 3pm" "我今天跟John去shopping" ```
Mfumo wetu hugawanya kwa lugha. Unaendesha mfano sahihi kwenye kila sehemu. Kisha unaunganisha matokeo na ramani ya nafasi.
Vipimo vya Ndani
Matokeo kutoka majaribio ya ndani kwenye data ya lugha mchanganyiko:
| Hali | F1 |
|---|---|
| Kiingereza peke yake | 91% |
| Kijerumani peke yake | 88% |
| Kiarabu peke yake | 79% |
| Kichina peke yake | 81% |
| Mchanganyiko wa Kiingereza-Kiarabu | 83% |
| Mchanganyiko wa Kiingereza-Kichina | 84% |
| Mchanganyiko wa Kiingereza-Kijerumani | 89% |
Maelezo ya Usanidi
Programu ya desktop hugundua lugha kiotomatiki kwa kila hati. Kwa faili za lugha mchanganyiko, inashughulikia kila sehemu na mfano sahihi. Hakuna hatua ya mkono inayohitajika.
Weka lugha katika API unapokuijua:
```json { "text": "محمد بن عبد الله", "language": "ar" } ```
Tumia ugunduzi wa kiotomatiki unapokosa:
```json { "text": "محمد بن عبد الله", "language": "auto" } ```
Mifumo ya kawaida inapaswa kufunika tarakimu mahususi za eneo:
```
Kitambulisho cha mfanyakazi cha Kilatini
EMP-[0-9]{6}
Kitambulisho cha mfanyakazi cha Kiarabu (inajumuisha tarakimu za Kiarabu-Indic)
موظف-[٠-٩0-9]{6} ```
Angalia orodha kamili ya viumbe. Kwa usanidi wa API, tembelea ukurasa wa vipengele vya API. Mwongozo wetu wa uzingatifu wa GDPR unafunika jinsi mapungufu ya ugunduzi yanavyoathiri sheria ya ulinzi wa data.
anonym.legal inatumia mfumo wa NER wa viwango vitatu — spaCy, Stanza, na XLM-RoBERTa — kufunika lugha 48 na ugunduzi thabiti wa PII.