By · Last updated 2026-03-20

Tillbaka till BloggenGDPR & Efterlevnad

Engelskspråkiga PII-verktyg: GDPR-luckan

Ett tyskt Steuer-ID (11 siffror med kontrollsumma) skiljer sig strukturellt från ett amerikanskt SSN. Franska NIR-nummer har 15 siffror. Polska PESEL och svenska Personnummer kräver jurisdiktionsspecifik validering.

March 20, 20268 min läsning
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

GDPR har inget språkpreferens

Dataskyddsförordningen gäller lika för personuppgifter på tyska, franska, polska, svenska, spanska, italienska och alla andra språk som behandlas av organisationer som är underkastade förordningen. En missad identifierare i tyska kunduppgifter skapar samma regulatoriska exponering som en missad identifierare i engelska kunduppgifter. GDPR gör ingen distinktion baserad på språk.

De flesta PII-detekteringsverktyg gör det.

De dominerande kommersiella och öppen källkod-verktygen för PII-detektering byggdes och riktmärktes primärt på engelsk text. Deras entitetsigenkännare återspeglar detta: amerikanska personnummer (SSN), amerikanska körkort, amerikanska passformat och vanliga universella identifierare (e-postadresser, telefonnummer i NANP-format, kreditkortsnummer). Igenkännarna för icke-engelska nationella identifierare — när de finns — är ofta mindre noggranna, sämre underhållna och mer benägna att producera falska negativa resultat.

För företag som verkar i flera EU-länder skapar detta ett systematiskt efterlevnadsgap: verktyget rapporterar att PII har identifierats och raderats, men de icke-engelska identifierarna som representerar den största GDPR-exponeringen i vissa jurisdiktioner finns kvar i datan.

Den strukturella skillnaden mellan nationella identifierare

Gapet mellan engelskcentrerade verktyg och genuint flerspråkiga verktyg handlar inte om att lägga till fler regex-mönster. Nationella identifierarformat inom EU:s medlemsstater är strukturellt distinkta på sätt som kräver jurisdiktionsspecifik kunskap för korrekt identifiering.

Tyskt Steuer-Identifikationsnummer (Steuer-ID): 11-siffrig skatteidentifierare med en specifik kontrollsummealgoritm baserad på en variant av Luhn-formeln. En generell SSN-regex matchar inte detta format. En regex som matchar valfritt 11-siffrigt tal ger enorma falskpositivfrekvenser i tyska finansiella dokument.

Franskt NIR (Numéro d'inscription au répertoire): 15-siffrig identifierare som inkluderar innehavarens kön, födelseår, födelsmånad, födelsekommun eller landskod, födelseordningsnummer och en 2-siffrig kontrollnyckel. Detektering kräver förståelse av strukturen och validering av kontrollnyckeln.

Svenskt Personnummer: 10-siffrig identifierare (ibland med sekelsindikator som gör den till 12 siffror) med ett Luhn-kontrollsiffra. Formatet varierar beroende på ålder: individer födda före 1990 använder ett +-avgränsare istället för -, vilket ändrar formatet som måste identifieras.

Polskt PESEL: 11-siffrig identifierare som kodar födelsedag, kön och en kontrollsiffra baserad på en viktad summaalgoritm. Korrekt identifiering kräver både formatmatchning och kontrollsummevalidering.

Dessa är inte formatvariationer på ett gemensamt mönster. De är strukturellt distinkta identifierare med olika längder, olika valideringsalgoritmer och olika positionella kodningsscheman. En engelsktränad NER-modell som stöter på ett franskt NIR i text kommer inte att känna igen det som en nationell identifierare — den ignorerar det antingen eller, om det matchar något annat mönster, klassificerar det felaktigt.

Den praktiska efterlevnadskonsekvensen

För en efterlevnadsansvarig på ett europeiskt BPO-företag som simultant behandlar kundservice-data från Tyskland, Frankrike, Polen och Nederländerna innebär den praktiska konsekvensen ett systematiskt detekteringsgap i icke-engelska kundposter.

Verktyget rapporterar lyckad PII-anonymisering. Den anonymiserade datan innehåller fortfarande Steuer-ID:n i tyska poster, NIR-nummer i franska poster och PESEL-nummer i polska poster — eftersom verktygets igenkännare för dessa format antingen saknas eller är otillräckligt noggranna.

När den anonymiserade datamängden senare används för analys, testning eller delas med en forskningspartner innehåller den "anonymiserade" datan fortfarande återidentifierbar nationell identifierardata. GDPR-överträdelsen syns inte i verktygets utdataloggar. Den framkommer när en begäran om datasubjektsåtkomst, en tillsynsmyndighetsrevision eller ett dataintrång avslöjar att icke-engelska identifierare inte togs bort.

Forskning som jämförde hybridbaserade flerspråkiga PII-detekteringsmetoder med enkelspråkiga engelskcentrerade verktyg fann att hybridmetoder uppnår F1-poäng på 0,60 till 0,83 inom europeiska lokaler — jämfört med nästan nollprestanda från engelskspråkiga verktyg tillämpade på icke-engelska identifierarformat.

Vad heltäckande skydd kräver

Äkta flerspråkig PII-detektering för EU GDPR-efterlevnad kräver tre arkitekturella lager som arbetar i kombination:

Språksinterna spaCy-modeller ger semantisk förståelse av namn, organisationer och platser på textens språk. En spaCy-modell tränad på tysk text förstår att "Müller" är ett vanligt efternamn i tyskt sammanhang — inte bara ett kapitaliserat ord. Modeller finns för 25 högresurs-EU-språk.

Stanza NLP-modeller utökar täckningen till ytterligare språk som inte täcks av spaCy på samma noggrannhetsnivå.

Tvärspråkliga transformermodeller (XLM-RoBERTa) hanterar den tvärspråkliga tvetydigheten som ren mönstermatchning inte kan hantera — igenkänner att ett namn som förekommer i en fransk mening är ett personnamn även om detekteringsmotorn inte specifikt tränades på det namnet.

Regex med jurisdiktionsspecifik validering täcker strukturerade nationella identifierare — Steuer-ID, NIR, PESEL, Personnummer — med kontrollsummevalidering som eliminerar falska positiva resultat.

För den efterlevnadsansvarige vars verktyg för närvarande missar icke-engelska identifierare: gapet är strukturellt, inte konfigurationsrelaterat. Att lägga till ordlistor eller utöka regex-täckningen ger marginell förbättring. Heltäckande EU GDPR-efterlevnad för flerspråkig data kräver ett verktyg byggt med EU-identifierartäckning som ett designkrav, inte en eftertanke.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.