Imesasishwa kwa 2026

GDPR haina upendeleo wa lugha. Kifungu cha 4(1) kinafafanua "data ya kibinafsi" bila kutaja lugha inayoonekana. Steuer-ID ya Ujerumani inalindwa kama Nambari ya Usalama wa Jamii ya Marekani. NIR ya Ufaransa inadhibitiwa kama nambari ya Bima ya Kitaifa ya Uingereza.

Zana nyingi za ugunduzi wa PII zilijengwa kwa Kiingereza tu.

Utafiti kutoka ACL 2024 ulionyesha kwamba zana za mseto za NLP zinafikia alama za F1 za 0.60–0.83 kwa makundi ya Ulaya. Zana za Kiingereza tu zinashinda karibu sifuri kwa miundo ya vitambulisho vya kitaifa visivyo vya Kiingereza. Pengo ni dhahiri. Zana inaweza kukamata 95% ya PII ya Kiingereza. Lakini inakosa 40–60% ya PII ya Kijerumani, Kifaransa, Kipolishi, au Kiholanzi katika faili moja. Hilo ni tatizo kubwa. Linawaacha makampuni wazi.

Hili ni pengo halisi la GDPR. Linaathiri karibu kila kampuni ya kimataifa inayotumia zana za kukata maneno zinazozingatia Kiingereza. Angalia mwongozo wetu wa GDPR kwa zaidi.

Kwa Nini PII ni Maalum kwa Eneo

Ugunduzi wa PII una sehemu mbili.

Ya kwanza ni uchunguzi unaotegemea mifumo. Hii inafunika vitambulisho vilivyoundwa kama nambari za kodi ya ushuru na miundo ya simu.

Ya pili ni uchunguzi unaotegemea NER. Hii inafunika viumbe vya muktadha kama majina na anwani.

Sehemu zote mbili zinategemea eneo.

Vitambulisho Vilivyoundwa Vinatofautiana kwa Nchi

Nchi	Kitambulisho cha Kodi ya Ushuru	Muundo	Uthibitisho
Ujerumani	Steuer-ID	Tarakimu 11	Modulo-11
Ufaransa	NIR	Tarakimu 15 + ufunguo wa tarakimu 2	INSEE
Uswidi	Personnummer	Tarakimu 10	Luhn
Poland	PESEL	Tarakimu 11	Modulo-10
Uholanzi	BSN	Tarakimu 9	Elfproef
Hispania	DNI/NIE	Tarakimu 8 + herufi	Modulo-23
Italia	Codice Fiscale	Wahusika 16	Checksum maalum

Regex ya Kiingereza tu kwa SSN (NNN-NN-NNNN) haitaoanisha muundo wowote kati ya hizi. Kila moja inahitaji regex yake mwenyewe. Kila moja pia inahitaji mantiki yake mwenyewe ya checksum.

NER Inahitaji Mifano ya Kiasili

Majina ya Kijerumani yanatofautiana na ya Kiingereza. "Hans-Dieter Müller" ni wazi kwa mfano wa kiasili wa Kijerumani. Mfano uliofunzwa kwa Kiingereza mara nyingi unakosa majina kama hayo.

Positivu za uongo pia ni tatizo. Kiraka cha tatizo la Microsoft Presidio kinaonyesha maneno ya Kijerumani yanayoainishwa vibaya kama PII ya Kiingereza. Neno "Null" (Kijerumani kwa "sifuri") ni mfano mmoja. Linasababisha matokeo ya majina ya uongo katika mifano iliyofunzwa kwa Kiingereza. Katika matumizi ya uzalishaji, viwango vya hitilafu vinafufuka hadi makosa 3 ya uongo kwa kila kiumbe halisi (Alvaro et al., 2024).

Hatari ya Udhibiti

Mamlaka ya data ya EU yanajua tatizo hili. DPA kadhaa za kitaifa zimetoa mwongozo.

BfDI ya Ujerumani: GDPR Kifungu cha 5(1)(f) inatumika kwa rekodi zote. Inafunika data isiyo ya Kiingereza inayoshughulikiwa na zana za watu wa tatu.

CNIL ya Ufaransa: Ripoti ya Kila Mwaka ya CNIL 2024 ilionyesha wasiwasi. Ilipiga alama zana za AI zinazoshughulikia rekodi za Kifaransa bila uchunguzi wa PII wa eneo la Kifaransa.

DPA za EU kwa ujumla: GDPR Kifungu cha 25 (Faragha kwa Muundo) inahitaji dhamana zinazofaa kwa rekodi halisi zinazoshughulikiwa. Hii inajumuisha PII isiyo ya Kiingereza katika utumaji wa kimataifa.

Hatari ni wazi. Kampuni inaweza kuonyesha ugunduzi wa 95% wa PII kwenye maudhui ya Kiingereza katika ukaguzi wa GDPR. Lakini ikiwa pia inashughulikia rekodi za Kijerumani, Kifaransa, na Kipolishi kwa zana moja, mapungufu yataonekana. Wakaguzi wanaona. Faini zinaweza kufuata. Angalia ukurasa wetu wa dhamana jinsi tunavyoshughulikia hili.

Muundo wa Viwango Vitatu

Utafiti na matumizi ya uzalishaji yanakubaliana juu ya muundo wa mseto wa viwango vitatu kama mbinu bora.

Kiwango cha 1: Mifano ya Kiasili ya spaCy

spaCy inatoa mifano iliyofunzwa kwa makundi 25. Hizi zinajumuisha Kijerumani, Kifaransa, Kihispania, Kireno, Kiitaliano, Kiholanzi, Kirusi, Kichina, Kijapani, Kikorea, na Kipolishi. Kila mfano hufunzwa kwa matini ya kiasili. Wanajifunza muundo na mifumo ya viumbe ya kila eneo. Hii inazingatiwa. Mafunzo ya kiasili yanamaanisha ukumbusho bora na positifu chache za uongo.

Kwa Kijerumani: `de_core_news_lg` inashughulikia maneno ya pamoja na mifumo ya majina ya Kijerumani. Kwa Kifaransa: `fr_core_news_lg` inashughulikia viumbe vya Kifaransa, majina, majina ya maeneo, na mashirika.

Mifano ya kiasili inazidi mifano ya lugha mbalimbali kwa uchunguzi wa majina kwenye makundi ya rasilimali nyingi.

Kiwango cha 2: Stanza kwa Makundi Zaidi

Maktaba ya Stanza ya Stanford inafunika makundi ambayo hayapo katika spaCy. Hizi zinajumuisha Kroatia, Slovenia, na Kiukreni. Hii inaongeza ufikiaji kwa vikundi vya wasemaji wa EU ambavyo spaCy haivihudumia. Stanza ni bure na ya chanzo wazi. Inaunganika vizuri na mwelekeo mwingine wa steki.

Kiwango cha 3: XLM-RoBERTa kwa Ufikiaji Mpana

Kwa makundi ambapo spaCy na Stanza hazina mifano ya NER, XLM-RoBERTa inajaza pengo. Inafunzwa kwa matini ya Common Crawl katika makundi 100. Inafikia F1 ya 91.4% ya lugha mbalimbali kwa ugunduzi wa PII (HuggingFace 2024). Inashughulikia kubadilisha msimbo vizuri. Hiyo ni kipengele muhimu. Inazingatiwa wakati hati moja ina matini katika makundi kadhaa mara moja.

Tembelea hati zetu za mfumo wa tokeni kuona jinsi wito wa API unavyopanuka na kiwango cha lugha nyingi.

Aina za Viumbe Maalum kwa Eneo

Mifano peke yake haitoshi. Ulinganifu wa GDPR pia unahitaji wigo wa aina ya viumbe kwa vitambulisho maalum kwa nchi.

Vitambulisho vya Kitaifa vya EU kwa nchi:

DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
FR: NIR, SIREN, SIRET
PL: PESEL, NIP, REGON
NL: BSN
SE: Personnummer, Samordningsnummer
ES: DNI, NIE, NIF, CIF
IT: Codice Fiscale, Partita IVA

Miundo ya simu: Kila nchi ya EU ina miundo ya kipekee ya kiambishi awali. +49, +33, na +48 kila moja inahitaji mantiki yake mwenyewe ya uthibitisho.

Miundo ya anwani: Misimbo ya posta inatofautiana sana. PLZ ya Ujerumani hutumia tarakimu 5. Misimbo ya Kifaransa hutumia tarakimu 5 (safu 01–99). Misimbo ya posta ya Uingereza ni ya herufi-nambari. Misimbo ya Kihispania hutumia tarakimu 5 (01000–52999).

Kesi ya Ulimwengu Halisi: Kampuni ya Dawa ya Uswisi

Kampuni ya Uswisi inashughulikia mikataba ya ajira. Kila mkataba unachanganya matini ya Kijerumani, Kifaransa, na Kiingereza. Uswisi ina lugha nne rasmi. Zana yao ilisanidiwa kwa Kijerumani tu. Ilikosa PII yote ya sehemu ya Kifaransa.

Mkataba wa mfanyakazi aliyeko Geneva ulijumuisha nambari ya AVS ya Kifaransa (tarakimu 13), IBAN ya benki ya Uswisi, na jina katika muundo wa Kifaransa. Zana ya Kijerumani tu ilikosa jina la muundo wa Kifaransa. Ilishindwa kupata nambari ya AVS ya Kifaransa. Iligundua tu sehemu ya IBAN.

Mbinu ya viwango vitatu inashughulikia hati nzima. Inagundua eneo kwa kila sehemu ya matini. Inatumia mfano sahihi wa NER kwa kila sehemu. Inathibitisha kila kitambulisho cha kitaifa na mantiki sahihi ya nchi.

Hati za Makundi Mchanganyiko

Hali ngumu zaidi ni uchanganyiko wa makundi ndani ya hati. Mifano:

Mkataba wa Kiingereza wa kampuni ya Ujerumani na rekodi za wafanyakazi za Kijerumani (majina, vitambulisho vya kodi ya ushuru)
Fomu ya idhini ya GDPR ya Kifaransa na dondoo ya faragha ya Kiingereza
Mazungumzo ambapo wakala anajibu kwa Kiingereza na mteja anaandika kwa Kiarabu

XLM-RoBERTa inashughulikia hili kwa kiasili. Haihitaji alama wazi za eneo. Inashughulikia matini ya makundi mchanganyiko bila kugawanya awali. Hii inaokoa muda. Pia inaepuka makosa kutoka kwa mgawanyiko mbaya.

Kwa matumizi ya uzalishaji, kuchanganya ugunduzi wa kiotomatiki wa eneo (kwa kiwango cha sentensi) na mhusika wa XLM-RoBERTa hutoa ushughulikiaji imara wa hati za makundi mchanganyiko.

Hatua za Vitendo

Kagua ufikiaji wa zana yako. Uliza muuzaji wako wa kukata maneno alama za F1 kwa makundi yako maalum. "Inasaidia lugha 20" mara nyingi inamaanisha zana inapeleka matini kupitia tafsiri ya mashine kwanza. Hiyo si uchunguzi wa kiasili.

Panga rekodi zako kwa makundi. Fanya orodha ya rekodi inayojumuisha usambazaji wa eneo. Kampuni ya kimataifa yenye 70% Kiingereza, 20% Kijerumani, na 10% Kifaransa inakabiliwa na hatari tofauti. Ile yenye 95% Kiingereza iko katika hali tofauti.

Jaribu na sampuli za vitambulisho vya kitaifa. Jenga seti ya majaribio na mifano 10 ya vitambulisho vya kitaifa katika uendeshaji wako — Steuer-ID, NIR, PESEL, BSN, na vingine. Thibitisha viwango vya ugunduzi. Hii ni haraka zaidi kuliko jaribio kamili la F1.

Kagua DPIA zako. Angalia kama wigo wa eneo umejumuishwa. DPIA isiyokamilika inayodhani rekodi za Kiingereza tu inaweza kuhitaji sasisha. Chukua hatua sasa. Usisubiri ukaguzi kupata pengo.

Kwa ufafanuzi kamili wa aina ya viumbe, angalia marejeleo ya viumbe na Maswali Yanayoulizwa Mara kwa Mara. Kwa mipango na viwango vya wito vya API, tembelea bei.

Injini ya ugunduzi wa PII ya anonym.legal inatumia mbinu ya mseto wa viwango vitatu ya lugha nyingi. Inafunika makundi 25 ya rasilimali nyingi kupitia mifano ya kiasili ya spaCy. Stanza inaongeza ufikiaji wa ziada wa eneo. Transformers za lugha mbalimbali za XLM-RoBERTa zinaeneza wigo hadi makundi 48. Aina za viumbe maalum kwa nchi kwa nchi zote wanachama wa EU zimejumuishwa.

Vyanzo

Makala Zinazohusiana

GDPR & Ufuatiliaji

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

Anza Jaribio la Bure Tazama Vipengele

Ugunduzi wa PII wa Lugha Nyingi kwa GDPR