By · Last updated 2026-03-20

Tilbake til BloggGDPR & Overholdelse

PII-verktoay kun for engelsk: GDPR-gapet

Et tysk Steuer-ID (11 sifre med kontrollsum) er strukturelt ulikt et amerikansk SSN. Franske NIR-numre har 15 sifre. Polsk PESEL og svensk personnummer har egne formater - og engelsksentrerte verktoay overser dem.

March 20, 20268 min lesing
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

PII-verktoay kun for engelsk: GDPR-gapet

GDPR har ingen spraakpreferanse

GDPR dekker persondata pa ethvert sprak. Tysk, fransk, polsk, svensk - alle er dekket likt. Et oversett Steuer-ID utgjor samme juridiske risiko som et oversett personnummer. Loven bryr seg ikke om sprak.

De fleste PII-deteksjonsverktoay gjor det.

De ledende kommersielle og apne kildekode-verktoyene ble bygd for engelsk tekst. Enhetsdetektorene deres gjenspeiler dette. De dekker amerikanske personnumre, amerikanske forerkortnumre og NANP-telefonformater godt. Detektorer for ikke-engelske nasjonale ID-er er mindre noayaktige. De vedlikeholdes darligere. De overser ekte identifikatorer oftere.

For selskaper pa tvers av EU-medlemsland skaper dette et dekningsgap. Verktoayet sier at deteksjonen er fullstendig. Men ikke-engelske identifikatorer forblir i dataene. Disse er ofte identifikatorene med storst GDPR-eksponering i visse land.

Datamyndigheter ser dette. Revisorer ser etter det. Et verktoay kan fungere godt pa engelske poster. Men hvis det feiler pa tyske eller franske poster, er det ikke i samsvar. En ren rapport endrer ikke det.

Nasjonale ID-er er forskjellige i struktur

Gapet mellom engelsksentrerte verktoay og flerspraklige verktoay handler ikke om a legge til flere regex-monster. EU-nasjonale identifikatorer er svart forskjellige fra hverandre. De trenger landsspesifikk logikk for a bli oppdaget korrekt.

Tysk Steuer-Identifikationsnummer (Steuer-ID): 11 sifre. Det bruker en kontrollsum basert pa en Luhn-formel-variant. En generisk SSN-regex vil ikke matche den. En regex for et hvilket som helst 11-sifret tall skaper for mange falske positive i tyske dokumenter.

Fransk NIR (Numéro d'inscription au répertoire): 15 sifre. Formatet koder kjonn, fodselsar, fodselsmåned og fodselsdepartement. Det inkluderer ogsa fodselssrekkefolgekode og en 2-sifret kontrollnokkel. Kontrollnokkelen ma valideres for korrekt deteksjon.

Svensk personnummer: 10 sifre med et Luhn-kontrollsiffer. Personer fodt for 1990 bruker et +-skilletegn i stedet for -. Det endrer formatet som ma oppdages.

Polsk PESEL: 11 sifre. Det koder fodselsdato, kjonn og et kontrollsiffer basert pa vektede summer. Korrekt deteksjon krever bade formatmatching og kontrollsumvalidering.

Disse er ikke varianter av et felles monster. Hver har forskjellig lengde. Hver bruker en annen kontrollmetode. Hver koder data i et annet posisjonsoppsett. En NER-modell trenet pa engelsk som ser en fransk NIR vil ikke gjenkjenne den som en nasjonal identifikator. Den vil ignorere den eller feilklassifisere den.

Den praktiske samsvarsrisikoen

Tenk pa en samsvarsansvarlig i et europeisk BPO. De behandler data fra Tyskland, Frankrike, Polen og Nederland samtidig. Verktoayet rapporterer vellykket PII-anonymisering.

Men resultatet er ikke fullstendig. Steuer-IDs i tyske poster forblir. NIR-numre i franske poster forblir. PESEL-numre i polske poster forblir. Verktoayets detektorer for disse formatene er fravarende eller for unoyaktige.

Senere sendes datasettet til analyse eller til en forskningspartner. Dataene inneholder fortsatt re-identifiserbare nasjonale identifikatorer. GDPR-problemet vises ikke i verktoayets utdatalogg. Det dukker opp nar en foresporgsel om innsyn fra registrerte ankommer. Det kan dukke opp under en revisjon fra datamyndigheten. Det kan dukke opp etter et datainnbrudd.

Forskning som sammenlikner hybride flerspraklige metoder med engelsksentrerte verktoay fant klare resultater. Hybride metoder oppnar F1-score pa 0,60 til 0,83 pa tvers av europeiske lokaliteter. Engelskbaserte verktoay scorer naer null for ikke-engelske nasjonale ID-formater.

Se var GDPR-samsvarsoveroversikt for hvordan disse gapene kartlegges til GDPR-forpliktelser.

Hva full dekning krever

Ekta flerspraklig PII-deteksjon for EU GDPR-samsvar krever tre lag.

Spraakbaserte spaCy-modeller gir semantisk forstaelse pa tekstens sprak. En modell trenet pa tysk tekst vet at "Müller" er et vanlig tysk etternavn. Modeller finnes for 25 sprak med mange ressurser i EU.

Stanza NLP-modeller utvider dekningen til sprak som ikke er i spaCy. Dette legger til rekkevidde for flere EU-spraksamfunn.

Tverrspraklige transformatormodeller (XLM-RoBERTa) handterer tverrspraklige tilfeller. Et navn i en fransk setning gjenkjennes som et personnavn. Dette fungerer selv om motoren ikke ble trenet pa det spesifikke navnet.

Regex med landsspesifikk validering dekker strukturerte nasjonale identifikatorer. Steuer-ID, NIR, PESEL og personnummer trenger hver sin kontrollsumlogikk. Dette reduserer falske positive. Siffersekvenser som feiler landets valideringsregler filtreres ut.

Gapet er strukturelt. A legge til ordlister eller flere regex-monster gir bare liten forbedring. A bygge inn EU-identifikatordekning fra starten er den eneste palitelige tilnaermingen.

Sjekk ditt navarende verktoay

Be leverandoren din om F1-score pa tyske, franske, polske og nederlandske poster. "Stotter flere sprak" betyr ofte at verktoayet bruker oversettelse forst. Det er ikke nativ skanning. GDPR-samsvar krever nativ skanning.

Test med ekte nasjonale ID-eksempler. Bygg et kort testsett med 10 eksempler av hver ID-type i din drift. Steuer-ID, NIR, PESEL, personnummer. Sjekk deteksjonsrater. Dette er raskere enn en full F1-test og viser gap raskt.

Se vart sikkerhets- og samsvarsside for hvordan anonym.legal adresserer disse kravene. For entity-type-definisjoner, besok entities-referansen.

Kilder

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.