anonym.legal

By · Last updated 2026-03-20

Terug na BlogGDPR & Nakoming

Engelstalige PII-Hulpmiddels: Die GDPR-Gaping

'n Duitse Steuer-ID (11 syfers met kontrolesom) verskil struktureel van 'n Amerikaanse SSN. Franse NIR-nommers het 15 syfers. Poolse PESEL en Sweedse Personnummer het elk hul eie formaat. Engelstalige gereedskap mis dit alles.

March 20, 20268 min lees
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Engelstalige PII-Hulpmiddels: Die GDPR-Gaping

GDPR Het Geen Taalvoorkeur Nie

GDPR dek persoonlike data in enige taal. Duits, Frans, Pools, Sweeds -- almal word ewe gedek. 'n Gemiste Steuer-ID skep dieselfde regsrisiko as 'n gemiste Sosiale Sekuriteitsnommer. Die wet gee nie om oor taal nie.

Die meeste PII-opsporingshulpmiddels gee wel om.

Die toonaangewende kommersiële en oopbron-hulpmiddels is vir Engelse teks gebou. Hul entiteitsdetektors weerspieël dit. Hulle dek Amerikaanse Sosiale Sekuriteitsnommers, Amerikaanse rybewyslisensiës en NANP-telefoonformate goed. Detektors vir nie-Engelse nasionale ID's is minder akkuraat. Hulle word minder goed bygehou. Hulle mis werklike identifiseerders meer gereeld.

Vir firmas regoor EU-lidstate skep dit 'n dekkingsgaping. Die hulpmiddel se verslag sê opsporing is volledig. Maar nie-Engelse identifiseerders bly in die data. Dit is dikwels die identifiseerders met die grootste GDPR-blootstelling in sekere lande.

Data-owerhede sien dit. Ouditeure soek daarna. 'n Hulpmiddel kan goed werk op Engelse rekords. Maar as dit misluk op Duitse of Franse rekords, voldoen dit nie. 'n Skoon verslag verander dit nie.

Nasionale ID's Verskil in Struktuur

Die gaping tussen Engelsgesentreerde hulpmiddels en meertalige hulpmiddels gaan nie oor die byvoeging van meer regex-patrone nie. EU-nasionale identifiseerders verskil baie van mekaar. Hulle benodig land-spesifieke logika om korrek opgespoor te word.

Duitse Steuer-Identifikationsnummer (Steuer-ID): 11 syfers. Dit gebruik 'n kontrolesom gebaseer op 'n Luhn-formule-variant. 'n Generiese SSN-regex sal dit nie pas nie. 'n Regex vir enige 11-syfer-nommer skep te veel vals positiewes in Duitse dokumente.

Franse NIR (Numéro d'inscription au répertoire): 15 syfers. Die formaat enkodeer geslag, geboortejaar, geboortemaand en geboorte-departement. Dit sluit ook geboorteorde en 'n 2-syfer-kontrolesleutel in. Die kontrolesleutel moet gevalideer word vir korrekte opsporing.

Sweedse Personnummer: 10 syfers met 'n Luhn-kontrolesyfer. Mense wat voor 1990 gebore is, gebruik 'n `+` skeidingsteken in plaas van `-`. Dit verander die formaat wat opgespoor moet word.

Poolse PESEL: 11 syfers. Dit enkodeer geboortedatum, geslag en 'n kontrolesyfer gebaseer op geweegde sums. Korrekte opsporing benodig beide formaatpassing en kontrolesom-validering.

Dit is nie variante van 'n gemeenskaplike patroon nie. Elkeen het 'n verskillende lengte. Elkeen gebruik 'n verskillende kontrolemetode. Elkeen enkodeer data in 'n verskillende posisieskema. 'n Engels-opgeleide NER-model wat 'n Franse NIR sien, sal dit nie as 'n nasionale identifiseerder herken nie. Dit sal dit ignoreer of verkeerd klassifiseer.

Die Praktiese Nakomingsrisiko

Beskou 'n nakomingsbeampte by 'n Europese BPO. Hulle verwerk data van Duitsland, Frankryk, Pole en Nederland tegelykertyd. Hul hulpmiddel rapporteer suksesvolle PII-anonimisering.

Maar die resultaat is nie volledig nie. Steuer-ID's in Duitse rekords bly. NIR-nommers in Franse rekords bly. PESEL-nommers in Poolse rekords bly. Die hulpmiddel se detektors vir hierdie formate ontbreek of is te onakkuraat.

Later gaan die datastel na analise of na 'n navorsingsgenoot. Die data bevat steeds heridentifiseerbare nasionale identifiseerders. Die GDPR-probleem verskyn nie in die hulpmiddel se uitsetlogboeke nie. Dit verskyn wanneer 'n datasubjek-toegangsversoek arriveer. Dit kan verskyn tydens 'n data-owerheidsoudit. Dit kan verskyn na 'n databreuk.

Navorsing wat hibriede meertalige benaderings teen Engelsgesentreerde hulpmiddels vergelyk, het duidelike resultate gevind. Hibriede metodes bereik F1-tellings van 0.60 tot 0.83 oor Europese lokale. Engelstalige hulpmiddels behaal naby nul vir nie-Engelse nasionale ID-formate.

Sien ons GDPR-nakomingsoorsig vir hoe hierdie gapings op GDPR-verpligtinge van toepassing is.

Wat Volledige Dekking Vereis

Werklike meertalige PII-opsporing vir EU GDPR-nakoming benodig drie lae.

Taal-inheemse spaCy-modelle bied semantiese begrip in die taal van die teks. 'n Model wat op Duitse teks opgelei is, weet dat "Muller" 'n algemene Duitse van is. Modelle bestaan vir 25 hoe-hulpbron-EU-tale.

Stanza NLP-modelle brei dekking uit na tale wat nie in spaCy is nie. Dit voeg bereik by vir meer EU-taalgemeenskappe.

Kruistaalse transformatormodelle (XLM-RoBERTa) hanteer kruistaalse gevalle. 'n Naam in 'n Franse sin word as 'n persoonsnaam herken. Dit werk selfs as die enjin nie op daardie spesifieke naam opgelei is nie.

Regex met land-spesifieke validering dek gestruktureerde nasionale identifiseerders. Steuer-ID, NIR, PESEL en Personnummer benodig elk hul eie kontrolesom-logika. Dit sny vals positiewes. Syferreekse wat land-validasie-reels misluk, word uitgefilteer.

Die gaping is struktureel. Die byvoeging van woordlyste of meer regex-patrone gee slegs geringe verbetering. Die inbou van EU-identifiseerder-dekking van die begin af is die enigste betroubare benadering.

Kontroleer u Huidige Hulpmiddel

Vra u verskaffer vir F1-tellings op Duitse, Franse, Poolse en Nederlandse rekords. "Ondersteun veelvuldige tale" beteken dikwels die hulpmiddel gebruik eers vertaling. Dit is nie inheemse skandering nie. GDPR-nakoming vereis inheemse skandering.

Toets met werklike nasionale ID-monsters. Bou 'n kort toetsstel met 10 voorbeelde van elke ID-tipe in u bedrywighede. Steuer-ID, NIR, PESEL, Personnummer. Kontroleer opsporingskoerse. Dit is vinniger as 'n volledige F1-toets en toon gapings vinnig.

Sien ons sekuriteits- en nakomingsbladsy vir hoe anonym.legal hierdie vereistes aanspreek. Vir entiteitstipe-definisies, besoek die entiteitsverwysing.

Bronne

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.