Flerspraklig PII-gjenkjenning for GDPR
Oppdatert for 2026
Det skjulte GDPR-gapet
GDPR har ingen sprakpreferanse. Artikkel 4(1) definerer "personopplysninger" uten a navngi sprak det oppstar i. Et tysk Steuer-ID er like beskyttet som et amerikansk personnummer. Et fransk NIR er like regulert som et britisk National Insurance-nummer.
De fleste PII-gjenkjenningsverktoy ble bygget bare for engelsk.
Forskning fra ACL 2024 fant at hybride NLP-verktoy oppnar F1-scorer pa 0,60-0,83 for europeiske lokaliteter. Engelsk-bare verktoy scorer naer null for ikke-engelske nasjonale ID-formater. Gapet er markant. Et verktoy kan fange 95 % av engelsk PII. Likevel bommer det pa 40-60 % av tysk, fransk, polsk eller nederlandsk PII i samme fil. Det er et alvorlig problem. Det etterlater bedrifter eksponert.
Dette er et reelt GDPR-gap. Det pavirker nesten alle globale selskaper som bruker engelsksentrerte redigeringsverktoy. Se var GDPR-veiledning for mer.
Hvorfor PII er stedsspesifikk
PII-gjenkjenning har to deler.
Den forste er monstersbasert skanning. Dette dekker strukturerte ID-er som skattenummer og telefonformater.
Den andre er NER-basert skanning. Dette dekker kontekstuelle enheter som navn og adresser.
Begge deler avhenger av lokalitet.
Strukturerte ID-er varierer etter land
| Land | Skatte-ID | Format | Validering |
|---|---|---|---|
| Tyskland | Steuer-ID | 11 sifre | Modulo-11 |
| Frankrike | NIR | 15 sifre + 2-sifret nokkel | INSEE |
| Sverige | Personnummer | 10 sifre | Luhn |
| Polen | PESEL | 11 sifre | Modulo-10 |
| Nederland | BSN | 9 sifre | Elfproef |
| Spania | DNI/NIE | 8 sifre + bokstav | Modulo-23 |
| Italia | Codice Fiscale | 16 tegn | Tilpasset sjekksum |
En engelsk-bare regex for SSN (NNN-NN-NNNN) vil ikke stemme overens med noen av disse formatene. Hvert format trenger sin egen regex. Hvert format trenger ogsa sin egen sjekksumlogikk.
NER trenger innfodte modeller
Tyske navn er forskjellige fra engelske. "Hans-Dieter Muller" er tydelig for en innfodt tysk modell. En engelsk-trent modell bommer ofte pa slike navn.
Falske positiver er ogsa et problem. Microsoft Presidio-problemsporeren viser tyske ord feilklassifisert som engelsk PII. Ordet "Null" (tysk for "null") er ett eksempel. Det utloses som falske navnetreff i engelsk-trente modeller. I produksjon infleres feilrater til 3 falske positiver per reell enhet (Alvaro et al., 2024).
Regulatorisk risiko
EU-datatilsynsmyndigheter er klar over dette problemet. Flere nasjonale DPA-er har gitt veiledning.
Tysk BfDI: GDPR Artikkel 5(1)(f) gjelder for alle opplysninger. Det dekker ikke-engelske data behandlet av tredjeparts verktoy.
Fransk CNIL: CINLs arrapport 2024 tok opp bekymringer. Den flagget AI-verktoy som handterer franske opplysninger uten fransk-lokalitet PII-skanning.
EU DPA-er generelt: GDPR Artikkel 25 (Innebygd personvern) krever sikkerhetstiltak tilpasset de faktiske opplysningene som behandles. Dette inkluderer ikke-engelsk PII i globale distribusjoner.
Risikoen er tydelig. Et selskap kan vise 95 % PII-gjenkjenning pa engelsk innhold i en GDPR-revisjon. Men hvis det ogsa handterer tyske, franske og polske opplysninger med det samme verktoy, vil gap oppsta. Revisorer legger merke til det. Botter kan folge. Se vart sikkerhetstiltak-side for hvordan vi adresserer dette.
Trelagsdesign
Forskning og produksjonsbruk er enige om et trelagsdesign som beste tilnarming.
Lag 1: Innfodte spaCy-modeller
spaCy leverer trente modeller for 25 lokaliteter. Disse inkluderer tysk, fransk, spansk, portugisisk, italiensk, nederlandsk, russisk, kinesisk, japansk, koreansk og polsk. Hver modell trenes pa innfodt tekst. De larer syntaksen og enhetsmonstrene til hver lokalitet. Det betyr noe. Innfodt trening betyr bedre gjenkalling og farre falske positiver.
For tysk: `de_core_news_lg` handterer sammensatte substantiver og tyske navnemonstre. For fransk: `fr_core_news_lg` handterer franske enheter, titler, stedsnavn og organisasjoner.
Innfodte modeller slar tverrspraklige modeller for navneskanning pa hoyressurslokaliteter.
Lag 2: Stanza for flere lokaliteter
Stanfords Stanza-bibliotek dekker lokaliteter som ikke er i spaCy. Disse inkluderer kroatisk, slovensk og ukrainsk. Det gir rekkevidde for EU-sprakgrupper som spaCy ikke betjener. Stanza er gratis og apent kildekode. Det integreres godt med resten av stacken.
Lag 3: XLM-RoBERTa for bred rekkevidde
For lokaliteter der spaCy og Stanza mangler NER-modeller, fyller XLM-RoBERTa gapet. Det trenes pa Common Crawl-tekst pa tvers av 100 lokaliteter. Det oppnar 91,4 % tverrspraklig F1 for PII-gjenkjenning (HuggingFace 2024). Det handterer kodebytting godt. Det er en viktig funksjon. Det betyr noe nar ett dokument inneholder tekst pa flere lokaliteter pa en gang.
Besok vare token-systemdokumenter for a se hvordan API-kall skalerer med flerspraklig volum.
Lokalitetsspesifikke enhetstyper
Modeller alene er ikke nok. GDPR-samsvar krever ogsa enhetstype-omfang for lands-spesifikke ID-er.
EU nasjonale ID-er etter land:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Telefonformater: Hvert EU-land har unike prefiksstrukturer. +49, +33 og +48 krever hver sin valideringslogikk.
Adresseformater: Postnummer varierer mye. Tyske PLZ bruker 5 sifre. Franske koder bruker 5 sifre (01-99-omrade). Britiske postnummer er alfanumeriske. Spanske koder bruker 5 sifre (01000-52999).
Eksempel fra virkeligheten: Sveitsisk legemiddelselskap
Et sveitsisk selskap behandler arbeidskontrakter. Hver kontrakt blander tysk, fransk og engelsk tekst. Sveits har fire offisielle sprak. Verktoy de brukte var satt opp bare for tysk. Det bomset pa all PII i de franskspraklige delene.
En kontrakt for en Geneve-basert ansatt inkluderte et fransk AVS-nummer (13 sifre), et sveitsisk bank-IBAN og et navn i fransk format. Det tyskonline verktoy bomset pa det franskt-formaterte navnet. Det fant ikke det franske AVS-nummeret. Det gjenkjente bare delvis IBAN-et.
Trelagstilnarming behandler hele dokumentet. Den gjenkjenner lokalitet per tekstsegment. Den anvender riktig NER-modell for hver del. Den validerer hvert nasjonalt ID med korrekt landslogikk.
Blandede-lokalitet-dokumenter
Det vanskeligste tilfellet er blandede lokaliteter innen ett dokument. Eksempler:
- Et tysk selskaps engelske kontrakt med tyske ansattsopplysninger (navn, skatte-ID-er)
- Et fransk GDPR-samtykkeskjema med et engelsk personvernutdrag
- En chat der agenten svarer pa engelsk og kunden skriver pa arabisk
XLM-RoBERTa handterer dette infodt. Det trenger ingen eksplisitte lokalitetsflagg. Det behandler blandede-lokalitet-tekst uten forhandsegmentering. Det sparer tid. Det unnga ogsa feil fra feilaktige deler.
For produksjonsbruk gir kombinasjon av automatisk lokalitetsgjenkjenning (pa setningsniva) med XLM-RoBERTa-inferens robust handtering av blandede-lokalitet-dokumenter.
Praktiske trinn
Revider verktoyets rekkevidde. Spur redigeringsleverandoren din om F1-scorer for dine spesifikke lokaliteter. "Stotter 20 sprak" betyr ofte at verktoy sender tekst gjennom maskinoversettelse forst. Det er ikke innfodt skanning.
Kartlegg opplysningene dine til lokaliteter. Gjor en opplysningsinventar som inkluderer lokalitetsfordeling. Et globalt selskap med 70 % engelsk, 20 % tysk og 10 % fransk star overfor andre risikoer. Et med 95 % engelsk er i en annen posisjon.
Test med nasjonale ID-eksempler. Bygg et testsett med 10 eksempler pa nasjonale ID-er i driften din - Steuer-ID, NIR, PESEL, BSN og andre. Verifiser gjenkjenningsrater. Det er raskere enn en full F1-test.
Gjennomga DPIA-ene dine. Sjekk om lokalitetsomfang er inkludert. En ufullstendig DPIA som forutsetter engelsk-bare opplysninger kan trenge en oppdatering. Handl na. Ikke vent til en revisjon finner gapet.
For fullstendige enhetstype-definisjoner, se enhetsreferansen og FAQ. For planer og API-anropsrater, besok priser.
anonym.legal sin PII-gjenkjenningsmotor bruker en trelags flerspraklig tilnarming. Den dekker 25 hoy-ressurslokale via innfodte spaCy-modeller. Stanza legger til ekstra lokalitetsrekkevidde. XLM-RoBERTa tverrspraklige transformere utvider omfanget til 48 lokaliteter. Lands-spesifikke enhetstyper for alle EU-medlemsstater er inkludert.
Kilder
- ACL 2024: Hybrid PII Detection for European Locales
- Skalerbart flerspraklig PII-annoteringsrammeverk (arXiv 2025)
- HuggingFace XLM-RoBERTa tverrspraklige NER-benchmarks
- Microsoft Presidio GitHub Issue #1071 - Tyske falske positiver
- EDPB-retningslinjer om Artikkel 25 innebygd personvern
- CNIL Arrapport 2024