By · Last updated 2026-03-03

Tilbage til BlogGDPR & Overholdelse

Multilingual PII Detection for GDPR

Et tysk Steuer-ID, et fransk NIR og et svensk personnummer kræver alle forskellig detektionslogik. Lær, hvordan du lukker det skjulte GDPR-compliancegab.

March 3, 202610 min læsning
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Det skjulte GDPR-compliancegab

GDPR har ingen sprogpræference. Artikel 4, stk. 1 definerer "personoplysninger" uden reference til det sprog, hvori de optræder. Et tysk Steuer-ID er lige så beskyttet som et amerikansk CPR-nummer. Et fransk NIR er lige så reguleret som et britisk National Insurance-nummer.

Men de fleste PII-detektionsværktøjer er bygget til engelsk.

Forskning offentliggjort ved ACL 2024 viste, at hybride NLP-tilgange opnår F1-scorer på 0,60-0,83 for europæiske lokaliteter – men engelskbaserede værktøjer anvendt på ikke-engelsk tekst scorer tæt på nul for strukturerede nationale identifikatorer. Den praktiske konsekvens: et anonymiseringsværktøj implementeret på tværs af en multinational organisation kan registrere 95% af engelsk PII, mens det overser 40-60% af tysk, fransk, polsk eller nederlandsk PII i det samme datasæt.

Dette er et systematisk GDPR-compliancegab, der rammer næsten alle multinationale virksomheder, der bruger engelskcentrerede anonymiseringsværktøjer.

Hvorfor PII er sprogspecifik

PII-detektion har to komponenter: mønsternbaseret detektion (strukturerede identifikatorer som skatte-ID'er, telefonformater) og NER-baseret detektion (kontekstuelle entiteter som personnavne, organisationsnavne, adresser).

Begge komponenter er dybt sprogspecifikke.

Strukturerede identifikatorer varierer markant fra land til land

LandSkatteidentifikatorFormatDetektionskrav
TysklandSteuer-ID11 cifre, kontrolsumalgoritmeModulo-11-validering
FrankrigNIR15 cifre + 2-cifret nøgleINSEE-algoritmevalidering
SverigePersonnummer10 cifre, århundredeindikatorLuhn-validering
PolenPESEL11 cifre, fødselsdato kodetModulo-10-validering
NederlandeneBSN9 cifre, elfproef (11-check)Elfproef-algoritme
SpanienDNI/NIE8 cifre + bogstavModulo-23-validering
ItalienCodice Fiscale16 alfanumeriskeKompleks kontrolsum

Et engelskbaseret regexmønster for SSN'er (format: NNN-NN-NNNN) vil ikke matche nogen af disse identifikatorer. Hver kræver landspecifik regexlogik plus kontrolsumvalidering.

Named Entity Recognition kræver sprogindfødte modeller

Personnavne på tysk følger andre mønstre end engelske navne. "Hans-Dieter Müller" og "Anna-Lena Schreiber-Koch" er genkendelige som tyske navne via kontekst – men en model primært trænet på engelsk tekst vil hyppigt overse dem eller fejlklassificere dem.

Mere problematisk: falske positive i ét sprog kan blive falske negative i et andet. Microsoft Presidio GitHub-fejlsporingen dokumenterer systematiske falske positive for tyske ord, der fejlklassificeres som engelsk PII. Det samme ord "Null" (tysk for "nul") udløser navnedetektionsfejl i engelsktrænede modeller. Dette oppuster falsk positiv-raterne til 3 fejl pr. reel entitet i flersprogede produktionsmiljøer (Alvaro et al., 2024).

Den regulatoriske eksponering

EU-databeskyttelsesmyndigheder er i stigende grad opmærksomme på dette gab. Flere nationale DPA'er har udstedt vejledning eller håndhævelsesforanstaltninger, der involverer flersproget behandling:

Tysk BfDI: Har præciseret, at GDPR artikel 5, stk. 1, litra f (integritet og fortrolighed) gælder for data i alle behandlingsformer, herunder ikke-engelske data behandlet af tredjepartsværktøjer.

Fransk CNIL: 2024 CNIL Årsrapporten bemærkede stigende bekymringer om AI-værktøjer, der behandler fransksprogede data uden fransksprogede PII-detektionsmuligheder.

Europæiske DPA'er generelt: I henhold til GDPR artikel 25 (Privacy by Design) skal de tekniske foranstaltninger være passende for de faktisk behandlede data – hvilket inkluderer ikke-engelsk PII i multinationale implementeringer.

Den praktiske risiko: en organisation kan demonstrere 95% PII-detektionseffektivitet på engelsksprogede indhold under en GDPR-revision, men hvis de også behandler tysk, fransk og polsk indhold med samme værktøj, kan revisionen afsløre systematiske mangler for disse sprog.

Den tre-niveaus tilgang til flersproget PII-detektion

Akademisk forskning og produktionsimplementeringer er konvergeret om en tre-niveaus hybridarkitektur som den mest effektive tilgang til flersproget PII-detektion:

Niveau 1: Sprogindfødte spaCy-modeller (højtressourcesprog)

spaCy tilbyder trænede pipelinekomponenter til 25 sprog, herunder tysk, fransk, spansk, portugisisk, italiensk, nederlandsk, russisk, kinesisk, japansk, koreansk, polsk og andre. Disse modeller er trænet på indfødte sprogkorpora og forstår morfologien, syntaksen og entitetsmønstrene for hvert sprog.

For tysk: spaCy-modellen de_core_news_lg forstår sammensatte substantiver, kasusafbøjning og tyske navnemønstre. For fransk: fr_core_news_lg håndterer franske entitetsmønstre, herunder titler, stednavne og organisationsformater.

Sprogindfødte modeller opnår markant højere præcision og recall for navnedetektion end tværsproglige modeller anvendt på specifikke højtressourcesprog.

Niveau 2: Stanza (yderligere sprog)

Stanfords Stanza-bibliotek tilbyder NER for yderligere sprog, der ikke er dækket af spaCy's kommercielle tilbud, herunder kroatisk, slovensk, ukrainsk og andre. Dette udvider dækningen til sprog med mindre, men stadig betydelige EU-talebefolkninger.

Niveau 3: XLM-RoBERTa (tværsproglig dækning)

For sprog, hvor hverken spaCy eller Stanza tilbyder trænede NER-modeller, giver XLM-RoBERTa tværsproglig overførsel. Trænet på Common Crawl-data på tværs af 100 sprog opnår XLM-RoBERTa 91,4% tværsproglig F1 for PII-detektion (HuggingFace 2024), hvilket muliggør rimelig detektion for lavressourcesprog.

Den tværsproglige model håndterer sprogskift (blandet sprogstekst) særligt godt – en egenskab der bliver kritisk for internationale organisationer, hvor et enkelt dokument kan indeholde tekst på flere sprog.

Sprogspecifikke entitetstyper

Ud over detektionsmodellen kræver GDPR-compliance dækning af entitetstyper for landspecifikke identifikatorer. Et flersproget værktøj skal have:

EU's nationale identifikatorer:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET, numéro de téléphone
  • PL: PESEL, NIP, REGON
  • NL: BSN, BurgerServiceNummer
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Telefonnummerformater: Hvert EU-land har unikke mobilpræfiksstrukturer, lokalnummerformater og lokale opkaldskonventioner. +49 (Tyskland), +33 (Frankrig), +48 (Polen) kræver alle landspecifik validering.

Adresseformater: Postnummerformater varierer markant – tyske PLZ (5 cifre), franske code postal (5 cifre begyndende med 01-99), britiske postkoder (alfanumeriske, flere formater), spanske código postal (5 cifre 01000-52999).

Brugsscenario: Schweizisk farmaceutisk virksomhed med flersprogede dokumenter

En schweizisk farmaceutisk virksomhed behandler ansættelseskontrakter, der indeholder tekst på tysk, fransk og engelsk i det samme dokument (Schweiz har fire officielle sprog). Deres nuværende værktøj er konfigureret til tysk og overser al fransk-sektions-PII.

En ansættelseskontrakt for en Genève-baseret medarbejder refererer til deres franske AVS-nummer (13 cifre), deres schweiziske bankkonto-IBAN, deres bopælskanton og deres navn i fransk format. Det danskinkonfigurerede værktøj overser det franskformaterede navn, undlader at registrere det franske AVS-nummermønster (forskelligt fra det tyske AHV-Nummer-format) og registrerer kun delvist IBAN'en.

Den tre-niveaus tilgang behandler dokumentet som helhed, registrerer automatisk sprog for hvert tekstsegment, anvender sprogtilpassede NER-modeller og bruger landspecifikke regexvalidatorer for hver national identifikatortype – uanset i hvilken sprogsektion den optræder.

Håndtering af blandede sprog i dokumenter

Det sværeste flersprogede PII-problem er intradokumentær sprogblanding: et dokument, der indeholder afsnit på forskellige sprog, sprogskift-sætninger eller citeret tekst på et andet sprog end den omgivende kontekst.

Eksempler:

  • Et tysk selskabs engelsksprogede kontrakt med tyske medarbejderdata (navne, skatte-ID'er)
  • En fransk GDPR-samtykkeblanket, der inkluderer et engelsksprogede uddrag af privatlivspolitikken
  • En flersproget kundeservicechat, hvor agenten svarer på engelsk, men kunden skriver på arabisk

XLM-RoBERTa håndterer dette indfødt: dens tværsproglige træning betyder, at den ikke kræver eksplicitte sprogerklæringer og behandler blandet sprogstekst uden segmentering.

For produktionsimplementeringer giver kombinationen af automatisk sprogdetektion (anvendt på sætningsniveau) og tværsproglig XLM-RoBERTa-inferens den mest robuste håndtering af blandede sprogsdokumenter.

Praktisk implementeringsvejledning

Revidér dit nuværende værktøjs sprogdækning: Bed din nuværende anonymiseringsleverandør om at oplyse F1-scorer for de specifikke sprog i dine data. "Understøtter 20 sprog" betyder ofte, at værktøjet sender tekst via Google Translate, inden det anvender engelsktrænede NER – hvilket ikke er det samme som sprogindfødt detektion.

Kortlæg dine data til sprog: Foretag en dataoversigt, der inkluderer sprogfordeling. En multinational med 70% engelsk, 20% tysk og 10% fransk data har forskellig risikoeksponering end en med 95% engelsk.

Test med nationale identifikatoreksempler: Opret et testdatasæt med 10 eksempler på de nationale identifikatorer, der er relevante for dine operationer (Steuer-ID, NIR, PESEL, BSN osv.) og verificér detektionsrater. Dette er en hurtigere revision end stor F1-evaluering.

Gennemgå dine DPIA'er: Hvis du har Data Protection Impact Assessments, der dækker dit anonymiseringsværktøj, skal du verificere, at sprogdækningsanalysen er inkluderet. En ufuldstændig DPIA, der antager udelukkende engelsk dækning, skal muligvis opdateres.


anonym.legals PII-detektionsmotor bruger en tre-niveaus flersproget tilgang: sprogindfødte spaCy-modeller til 25 højtressourcesprog, Stanza til yderligere sprogdækning og XLM-RoBERTa tværsproglige transformere til samlet 48-sprog-dækning. Landspecifikke entitetstyper for alle EU-medlemsstater er inkluderet.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.