By · Last updated 2026-03-03

Tilbake til BloggGDPR & Overholdelse

Flerspraklig PII-gjenkjenning for GDPR

Et tysk Steuer-ID, et fransk NIR og et svensk personnummer krever alle ulik gjenkjenningslogikk. Laer hvordan flerspraklig PII-gjenkjenning sikrer GDPR-samsvar pa tvers av 48 sprak.

March 3, 202610 min lesing
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Flerspraklig PII-gjenkjenning for GDPR

Oppdatert for 2026

Det skjulte GDPR-gapet

GDPR har ingen sprakpreferanse. Artikkel 4(1) definerer "personopplysninger" uten a navngi sprak det oppstar i. Et tysk Steuer-ID er like beskyttet som et amerikansk personnummer. Et fransk NIR er like regulert som et britisk National Insurance-nummer.

De fleste PII-gjenkjenningsverktoy ble bygget bare for engelsk.

Forskning fra ACL 2024 fant at hybride NLP-verktoy oppnar F1-scorer pa 0,60-0,83 for europeiske lokaliteter. Engelsk-bare verktoy scorer naer null for ikke-engelske nasjonale ID-formater. Gapet er markant. Et verktoy kan fange 95 % av engelsk PII. Likevel bommer det pa 40-60 % av tysk, fransk, polsk eller nederlandsk PII i samme fil. Det er et alvorlig problem. Det etterlater bedrifter eksponert.

Dette er et reelt GDPR-gap. Det pavirker nesten alle globale selskaper som bruker engelsksentrerte redigeringsverktoy. Se var GDPR-veiledning for mer.

Hvorfor PII er stedsspesifikk

PII-gjenkjenning har to deler.

Den forste er monstersbasert skanning. Dette dekker strukturerte ID-er som skattenummer og telefonformater.

Den andre er NER-basert skanning. Dette dekker kontekstuelle enheter som navn og adresser.

Begge deler avhenger av lokalitet.

Strukturerte ID-er varierer etter land

LandSkatte-IDFormatValidering
TysklandSteuer-ID11 sifreModulo-11
FrankrikeNIR15 sifre + 2-sifret nokkelINSEE
SverigePersonnummer10 sifreLuhn
PolenPESEL11 sifreModulo-10
NederlandBSN9 sifreElfproef
SpaniaDNI/NIE8 sifre + bokstavModulo-23
ItaliaCodice Fiscale16 tegnTilpasset sjekksum

En engelsk-bare regex for SSN (NNN-NN-NNNN) vil ikke stemme overens med noen av disse formatene. Hvert format trenger sin egen regex. Hvert format trenger ogsa sin egen sjekksumlogikk.

NER trenger innfodte modeller

Tyske navn er forskjellige fra engelske. "Hans-Dieter Muller" er tydelig for en innfodt tysk modell. En engelsk-trent modell bommer ofte pa slike navn.

Falske positiver er ogsa et problem. Microsoft Presidio-problemsporeren viser tyske ord feilklassifisert som engelsk PII. Ordet "Null" (tysk for "null") er ett eksempel. Det utloses som falske navnetreff i engelsk-trente modeller. I produksjon infleres feilrater til 3 falske positiver per reell enhet (Alvaro et al., 2024).

Regulatorisk risiko

EU-datatilsynsmyndigheter er klar over dette problemet. Flere nasjonale DPA-er har gitt veiledning.

Tysk BfDI: GDPR Artikkel 5(1)(f) gjelder for alle opplysninger. Det dekker ikke-engelske data behandlet av tredjeparts verktoy.

Fransk CNIL: CINLs arrapport 2024 tok opp bekymringer. Den flagget AI-verktoy som handterer franske opplysninger uten fransk-lokalitet PII-skanning.

EU DPA-er generelt: GDPR Artikkel 25 (Innebygd personvern) krever sikkerhetstiltak tilpasset de faktiske opplysningene som behandles. Dette inkluderer ikke-engelsk PII i globale distribusjoner.

Risikoen er tydelig. Et selskap kan vise 95 % PII-gjenkjenning pa engelsk innhold i en GDPR-revisjon. Men hvis det ogsa handterer tyske, franske og polske opplysninger med det samme verktoy, vil gap oppsta. Revisorer legger merke til det. Botter kan folge. Se vart sikkerhetstiltak-side for hvordan vi adresserer dette.

Trelagsdesign

Forskning og produksjonsbruk er enige om et trelagsdesign som beste tilnarming.

Lag 1: Innfodte spaCy-modeller

spaCy leverer trente modeller for 25 lokaliteter. Disse inkluderer tysk, fransk, spansk, portugisisk, italiensk, nederlandsk, russisk, kinesisk, japansk, koreansk og polsk. Hver modell trenes pa innfodt tekst. De larer syntaksen og enhetsmonstrene til hver lokalitet. Det betyr noe. Innfodt trening betyr bedre gjenkalling og farre falske positiver.

For tysk: `de_core_news_lg` handterer sammensatte substantiver og tyske navnemonstre. For fransk: `fr_core_news_lg` handterer franske enheter, titler, stedsnavn og organisasjoner.

Innfodte modeller slar tverrspraklige modeller for navneskanning pa hoyressurslokaliteter.

Lag 2: Stanza for flere lokaliteter

Stanfords Stanza-bibliotek dekker lokaliteter som ikke er i spaCy. Disse inkluderer kroatisk, slovensk og ukrainsk. Det gir rekkevidde for EU-sprakgrupper som spaCy ikke betjener. Stanza er gratis og apent kildekode. Det integreres godt med resten av stacken.

Lag 3: XLM-RoBERTa for bred rekkevidde

For lokaliteter der spaCy og Stanza mangler NER-modeller, fyller XLM-RoBERTa gapet. Det trenes pa Common Crawl-tekst pa tvers av 100 lokaliteter. Det oppnar 91,4 % tverrspraklig F1 for PII-gjenkjenning (HuggingFace 2024). Det handterer kodebytting godt. Det er en viktig funksjon. Det betyr noe nar ett dokument inneholder tekst pa flere lokaliteter pa en gang.

Besok vare token-systemdokumenter for a se hvordan API-kall skalerer med flerspraklig volum.

Lokalitetsspesifikke enhetstyper

Modeller alene er ikke nok. GDPR-samsvar krever ogsa enhetstype-omfang for lands-spesifikke ID-er.

EU nasjonale ID-er etter land:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Telefonformater: Hvert EU-land har unike prefiksstrukturer. +49, +33 og +48 krever hver sin valideringslogikk.

Adresseformater: Postnummer varierer mye. Tyske PLZ bruker 5 sifre. Franske koder bruker 5 sifre (01-99-omrade). Britiske postnummer er alfanumeriske. Spanske koder bruker 5 sifre (01000-52999).

Eksempel fra virkeligheten: Sveitsisk legemiddelselskap

Et sveitsisk selskap behandler arbeidskontrakter. Hver kontrakt blander tysk, fransk og engelsk tekst. Sveits har fire offisielle sprak. Verktoy de brukte var satt opp bare for tysk. Det bomset pa all PII i de franskspraklige delene.

En kontrakt for en Geneve-basert ansatt inkluderte et fransk AVS-nummer (13 sifre), et sveitsisk bank-IBAN og et navn i fransk format. Det tyskonline verktoy bomset pa det franskt-formaterte navnet. Det fant ikke det franske AVS-nummeret. Det gjenkjente bare delvis IBAN-et.

Trelagstilnarming behandler hele dokumentet. Den gjenkjenner lokalitet per tekstsegment. Den anvender riktig NER-modell for hver del. Den validerer hvert nasjonalt ID med korrekt landslogikk.

Blandede-lokalitet-dokumenter

Det vanskeligste tilfellet er blandede lokaliteter innen ett dokument. Eksempler:

  • Et tysk selskaps engelske kontrakt med tyske ansattsopplysninger (navn, skatte-ID-er)
  • Et fransk GDPR-samtykkeskjema med et engelsk personvernutdrag
  • En chat der agenten svarer pa engelsk og kunden skriver pa arabisk

XLM-RoBERTa handterer dette infodt. Det trenger ingen eksplisitte lokalitetsflagg. Det behandler blandede-lokalitet-tekst uten forhandsegmentering. Det sparer tid. Det unnga ogsa feil fra feilaktige deler.

For produksjonsbruk gir kombinasjon av automatisk lokalitetsgjenkjenning (pa setningsniva) med XLM-RoBERTa-inferens robust handtering av blandede-lokalitet-dokumenter.

Praktiske trinn

Revider verktoyets rekkevidde. Spur redigeringsleverandoren din om F1-scorer for dine spesifikke lokaliteter. "Stotter 20 sprak" betyr ofte at verktoy sender tekst gjennom maskinoversettelse forst. Det er ikke innfodt skanning.

Kartlegg opplysningene dine til lokaliteter. Gjor en opplysningsinventar som inkluderer lokalitetsfordeling. Et globalt selskap med 70 % engelsk, 20 % tysk og 10 % fransk star overfor andre risikoer. Et med 95 % engelsk er i en annen posisjon.

Test med nasjonale ID-eksempler. Bygg et testsett med 10 eksempler pa nasjonale ID-er i driften din - Steuer-ID, NIR, PESEL, BSN og andre. Verifiser gjenkjenningsrater. Det er raskere enn en full F1-test.

Gjennomga DPIA-ene dine. Sjekk om lokalitetsomfang er inkludert. En ufullstendig DPIA som forutsetter engelsk-bare opplysninger kan trenge en oppdatering. Handl na. Ikke vent til en revisjon finner gapet.

For fullstendige enhetstype-definisjoner, se enhetsreferansen og FAQ. For planer og API-anropsrater, besok priser.


anonym.legal sin PII-gjenkjenningsmotor bruker en trelags flerspraklig tilnarming. Den dekker 25 hoy-ressurslokale via innfodte spaCy-modeller. Stanza legger til ekstra lokalitetsrekkevidde. XLM-RoBERTa tverrspraklige transformere utvider omfanget til 48 lokaliteter. Lands-spesifikke enhetstyper for alle EU-medlemsstater er inkludert.

Kilder

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.