By · Last updated 2026-03-03

Rudi kwa BlogGDPR & Ufuatiliaji

Ugunduzi wa PII wa Lugha Nyingi kwa GDPR

Steuer-ID ya Ujerumani, NIR ya Ufaransa, na Personnummer ya Uswidi vyote vinahitaji mantiki tofauti za ugunduzi.

March 3, 202610 dakika kusoma
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Ugunduzi wa PII wa Lugha Nyingi kwa GDPR

Imesasishwa kwa 2026

Pengo Lililofichwa la GDPR

GDPR haina upendeleo wa lugha. Kifungu cha 4(1) kinafafanua "data ya kibinafsi" bila kutaja lugha inayoonekana. Steuer-ID ya Ujerumani inalindwa kama Nambari ya Usalama wa Jamii ya Marekani. NIR ya Ufaransa inadhibitiwa kama nambari ya Bima ya Kitaifa ya Uingereza.

Zana nyingi za ugunduzi wa PII zilijengwa kwa Kiingereza tu.

Utafiti kutoka ACL 2024 ulionyesha kwamba zana za mseto za NLP zinafikia alama za F1 za 0.60–0.83 kwa makundi ya Ulaya. Zana za Kiingereza tu zinashinda karibu sifuri kwa miundo ya vitambulisho vya kitaifa visivyo vya Kiingereza. Pengo ni dhahiri. Zana inaweza kukamata 95% ya PII ya Kiingereza. Lakini inakosa 40–60% ya PII ya Kijerumani, Kifaransa, Kipolishi, au Kiholanzi katika faili moja. Hilo ni tatizo kubwa. Linawaacha makampuni wazi.

Hili ni pengo halisi la GDPR. Linaathiri karibu kila kampuni ya kimataifa inayotumia zana za kukata maneno zinazozingatia Kiingereza. Angalia mwongozo wetu wa GDPR kwa zaidi.

Kwa Nini PII ni Maalum kwa Eneo

Ugunduzi wa PII una sehemu mbili.

Ya kwanza ni uchunguzi unaotegemea mifumo. Hii inafunika vitambulisho vilivyoundwa kama nambari za kodi ya ushuru na miundo ya simu.

Ya pili ni uchunguzi unaotegemea NER. Hii inafunika viumbe vya muktadha kama majina na anwani.

Sehemu zote mbili zinategemea eneo.

Vitambulisho Vilivyoundwa Vinatofautiana kwa Nchi

NchiKitambulisho cha Kodi ya UshuruMuundoUthibitisho
UjerumaniSteuer-IDTarakimu 11Modulo-11
UfaransaNIRTarakimu 15 + ufunguo wa tarakimu 2INSEE
UswidiPersonnummerTarakimu 10Luhn
PolandPESELTarakimu 11Modulo-10
UholanziBSNTarakimu 9Elfproef
HispaniaDNI/NIETarakimu 8 + herufiModulo-23
ItaliaCodice FiscaleWahusika 16Checksum maalum

Regex ya Kiingereza tu kwa SSN (NNN-NN-NNNN) haitaoanisha muundo wowote kati ya hizi. Kila moja inahitaji regex yake mwenyewe. Kila moja pia inahitaji mantiki yake mwenyewe ya checksum.

NER Inahitaji Mifano ya Kiasili

Majina ya Kijerumani yanatofautiana na ya Kiingereza. "Hans-Dieter Müller" ni wazi kwa mfano wa kiasili wa Kijerumani. Mfano uliofunzwa kwa Kiingereza mara nyingi unakosa majina kama hayo.

Positivu za uongo pia ni tatizo. Kiraka cha tatizo la Microsoft Presidio kinaonyesha maneno ya Kijerumani yanayoainishwa vibaya kama PII ya Kiingereza. Neno "Null" (Kijerumani kwa "sifuri") ni mfano mmoja. Linasababisha matokeo ya majina ya uongo katika mifano iliyofunzwa kwa Kiingereza. Katika matumizi ya uzalishaji, viwango vya hitilafu vinafufuka hadi makosa 3 ya uongo kwa kila kiumbe halisi (Alvaro et al., 2024).

Hatari ya Udhibiti

Mamlaka ya data ya EU yanajua tatizo hili. DPA kadhaa za kitaifa zimetoa mwongozo.

BfDI ya Ujerumani: GDPR Kifungu cha 5(1)(f) inatumika kwa rekodi zote. Inafunika data isiyo ya Kiingereza inayoshughulikiwa na zana za watu wa tatu.

CNIL ya Ufaransa: Ripoti ya Kila Mwaka ya CNIL 2024 ilionyesha wasiwasi. Ilipiga alama zana za AI zinazoshughulikia rekodi za Kifaransa bila uchunguzi wa PII wa eneo la Kifaransa.

DPA za EU kwa ujumla: GDPR Kifungu cha 25 (Faragha kwa Muundo) inahitaji dhamana zinazofaa kwa rekodi halisi zinazoshughulikiwa. Hii inajumuisha PII isiyo ya Kiingereza katika utumaji wa kimataifa.

Hatari ni wazi. Kampuni inaweza kuonyesha ugunduzi wa 95% wa PII kwenye maudhui ya Kiingereza katika ukaguzi wa GDPR. Lakini ikiwa pia inashughulikia rekodi za Kijerumani, Kifaransa, na Kipolishi kwa zana moja, mapungufu yataonekana. Wakaguzi wanaona. Faini zinaweza kufuata. Angalia ukurasa wetu wa dhamana jinsi tunavyoshughulikia hili.

Muundo wa Viwango Vitatu

Utafiti na matumizi ya uzalishaji yanakubaliana juu ya muundo wa mseto wa viwango vitatu kama mbinu bora.

Kiwango cha 1: Mifano ya Kiasili ya spaCy

spaCy inatoa mifano iliyofunzwa kwa makundi 25. Hizi zinajumuisha Kijerumani, Kifaransa, Kihispania, Kireno, Kiitaliano, Kiholanzi, Kirusi, Kichina, Kijapani, Kikorea, na Kipolishi. Kila mfano hufunzwa kwa matini ya kiasili. Wanajifunza muundo na mifumo ya viumbe ya kila eneo. Hii inazingatiwa. Mafunzo ya kiasili yanamaanisha ukumbusho bora na positifu chache za uongo.

Kwa Kijerumani: `de_core_news_lg` inashughulikia maneno ya pamoja na mifumo ya majina ya Kijerumani. Kwa Kifaransa: `fr_core_news_lg` inashughulikia viumbe vya Kifaransa, majina, majina ya maeneo, na mashirika.

Mifano ya kiasili inazidi mifano ya lugha mbalimbali kwa uchunguzi wa majina kwenye makundi ya rasilimali nyingi.

Kiwango cha 2: Stanza kwa Makundi Zaidi

Maktaba ya Stanza ya Stanford inafunika makundi ambayo hayapo katika spaCy. Hizi zinajumuisha Kroatia, Slovenia, na Kiukreni. Hii inaongeza ufikiaji kwa vikundi vya wasemaji wa EU ambavyo spaCy haivihudumia. Stanza ni bure na ya chanzo wazi. Inaunganika vizuri na mwelekeo mwingine wa steki.

Kiwango cha 3: XLM-RoBERTa kwa Ufikiaji Mpana

Kwa makundi ambapo spaCy na Stanza hazina mifano ya NER, XLM-RoBERTa inajaza pengo. Inafunzwa kwa matini ya Common Crawl katika makundi 100. Inafikia F1 ya 91.4% ya lugha mbalimbali kwa ugunduzi wa PII (HuggingFace 2024). Inashughulikia kubadilisha msimbo vizuri. Hiyo ni kipengele muhimu. Inazingatiwa wakati hati moja ina matini katika makundi kadhaa mara moja.

Tembelea hati zetu za mfumo wa tokeni kuona jinsi wito wa API unavyopanuka na kiwango cha lugha nyingi.

Aina za Viumbe Maalum kwa Eneo

Mifano peke yake haitoshi. Ulinganifu wa GDPR pia unahitaji wigo wa aina ya viumbe kwa vitambulisho maalum kwa nchi.

Vitambulisho vya Kitaifa vya EU kwa nchi:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Miundo ya simu: Kila nchi ya EU ina miundo ya kipekee ya kiambishi awali. +49, +33, na +48 kila moja inahitaji mantiki yake mwenyewe ya uthibitisho.

Miundo ya anwani: Misimbo ya posta inatofautiana sana. PLZ ya Ujerumani hutumia tarakimu 5. Misimbo ya Kifaransa hutumia tarakimu 5 (safu 01–99). Misimbo ya posta ya Uingereza ni ya herufi-nambari. Misimbo ya Kihispania hutumia tarakimu 5 (01000–52999).

Kesi ya Ulimwengu Halisi: Kampuni ya Dawa ya Uswisi

Kampuni ya Uswisi inashughulikia mikataba ya ajira. Kila mkataba unachanganya matini ya Kijerumani, Kifaransa, na Kiingereza. Uswisi ina lugha nne rasmi. Zana yao ilisanidiwa kwa Kijerumani tu. Ilikosa PII yote ya sehemu ya Kifaransa.

Mkataba wa mfanyakazi aliyeko Geneva ulijumuisha nambari ya AVS ya Kifaransa (tarakimu 13), IBAN ya benki ya Uswisi, na jina katika muundo wa Kifaransa. Zana ya Kijerumani tu ilikosa jina la muundo wa Kifaransa. Ilishindwa kupata nambari ya AVS ya Kifaransa. Iligundua tu sehemu ya IBAN.

Mbinu ya viwango vitatu inashughulikia hati nzima. Inagundua eneo kwa kila sehemu ya matini. Inatumia mfano sahihi wa NER kwa kila sehemu. Inathibitisha kila kitambulisho cha kitaifa na mantiki sahihi ya nchi.

Hati za Makundi Mchanganyiko

Hali ngumu zaidi ni uchanganyiko wa makundi ndani ya hati. Mifano:

  • Mkataba wa Kiingereza wa kampuni ya Ujerumani na rekodi za wafanyakazi za Kijerumani (majina, vitambulisho vya kodi ya ushuru)
  • Fomu ya idhini ya GDPR ya Kifaransa na dondoo ya faragha ya Kiingereza
  • Mazungumzo ambapo wakala anajibu kwa Kiingereza na mteja anaandika kwa Kiarabu

XLM-RoBERTa inashughulikia hili kwa kiasili. Haihitaji alama wazi za eneo. Inashughulikia matini ya makundi mchanganyiko bila kugawanya awali. Hii inaokoa muda. Pia inaepuka makosa kutoka kwa mgawanyiko mbaya.

Kwa matumizi ya uzalishaji, kuchanganya ugunduzi wa kiotomatiki wa eneo (kwa kiwango cha sentensi) na mhusika wa XLM-RoBERTa hutoa ushughulikiaji imara wa hati za makundi mchanganyiko.

Hatua za Vitendo

Kagua ufikiaji wa zana yako. Uliza muuzaji wako wa kukata maneno alama za F1 kwa makundi yako maalum. "Inasaidia lugha 20" mara nyingi inamaanisha zana inapeleka matini kupitia tafsiri ya mashine kwanza. Hiyo si uchunguzi wa kiasili.

Panga rekodi zako kwa makundi. Fanya orodha ya rekodi inayojumuisha usambazaji wa eneo. Kampuni ya kimataifa yenye 70% Kiingereza, 20% Kijerumani, na 10% Kifaransa inakabiliwa na hatari tofauti. Ile yenye 95% Kiingereza iko katika hali tofauti.

Jaribu na sampuli za vitambulisho vya kitaifa. Jenga seti ya majaribio na mifano 10 ya vitambulisho vya kitaifa katika uendeshaji wako — Steuer-ID, NIR, PESEL, BSN, na vingine. Thibitisha viwango vya ugunduzi. Hii ni haraka zaidi kuliko jaribio kamili la F1.

Kagua DPIA zako. Angalia kama wigo wa eneo umejumuishwa. DPIA isiyokamilika inayodhani rekodi za Kiingereza tu inaweza kuhitaji sasisha. Chukua hatua sasa. Usisubiri ukaguzi kupata pengo.

Kwa ufafanuzi kamili wa aina ya viumbe, angalia marejeleo ya viumbe na Maswali Yanayoulizwa Mara kwa Mara. Kwa mipango na viwango vya wito vya API, tembelea bei.


Injini ya ugunduzi wa PII ya anonym.legal inatumia mbinu ya mseto wa viwango vitatu ya lugha nyingi. Inafunika makundi 25 ya rasilimali nyingi kupitia mifano ya kiasili ya spaCy. Stanza inaongeza ufikiaji wa ziada wa eneo. Transformers za lugha mbalimbali za XLM-RoBERTa zinaeneza wigo hadi makundi 48. Aina za viumbe maalum kwa nchi kwa nchi zote wanachama wa EU zimejumuishwa.

Vyanzo

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.