Tilbake til BloggGDPR & Overholdelse

Hvorfor ditt PII-detekteringsverktøy kun er...

En tysk Steuer-ID (11 sifre med kontrollsiffer) er strukturelt ulik et amerikansk SSN. Franske NIR-numre har 15 sifre.

March 20, 20268 min lesing
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

GDPR har ikke en språkpreferanse

Den generelle databeskyttelsesforordningen gjelder likt for personopplysninger på tysk, fransk, polsk, svensk, spansk, italiensk og alle andre språk behandlet av organisasjoner som er underlagt forordningen. En utelatt identifikator i tyske kundedata skaper den samme regulatoriske eksponeringen som en utelatt identifikator i engelske kundedata. GDPR skiller ikke mellom språk.

De fleste PII-detekteringsverktøy gjør det.

De dominerende kommersielle og åpen kildekode PII-detekteringsverktøyene ble bygget og benchmarket primært på engelsk tekst. Deres entitetsgjenkjennere reflekterer dette: amerikanske sosiale sikkerhetsnumre, amerikanske førerkort, amerikanske passformater, og vanlige universelle identifikatorer (e-postadresser, telefonnumre i NANP-format, kredittkortnumre). Gjenkjennere for ikke-engelske nasjonale identifikatorer — når de eksisterer — er ofte mindre nøyaktige, mindre vedlikeholdte, og mer sannsynlig å produsere falske negativer.

For bedrifter som opererer på tvers av EU-land, skaper dette et systematisk samsvars-gap: verktøyet rapporterer at PII har blitt oppdaget og fjernet, men de ikke-engelske identifikatorene som representerer den største GDPR-eksponeringen i visse jurisdiksjoner forblir i dataene.

Den strukturelle forskjellen mellom nasjonale identifikatorer

Gapet mellom engelsksentriske verktøy og genuint flerspråklige verktøy handler ikke om å legge til flere regex-mønstre. Nasjonale identifikatorformater på tvers av EU-land er strukturelt distinkte på måter som krever jurisdiksjonsspesifikk kunnskap for å oppdage korrekt.

Tysk Steuer-Identifikationsnummer (Steuer-ID): 11-sifret skatteidentifikator med en spesifikk kontrollsifferalgoritme basert på Luhn-formelvarianten. En generell SSN-regex vil ikke matche dette formatet. En regex som matcher ethvert 11-sifret tall vil produsere enorme falske positive rater i tyske finansdokumenter.

Fransk NIR (Numéro d'inscription au répertoire): 15-sifret identifikator som inkluderer innehaverens kjønn, fødselsår, fødselsmåned, fødselsdepartement eller landskode, fødselsrekkefølgenummer, og en 2-sifret kontrollnøkkel. Oppdagelse krever forståelse av strukturen og validering av kontrollnøkkelen.

Svensk Personnummer: 10-sifret identifikator (noen ganger med århundreindikator som gjør det til 12 sifre) med en Luhn kontrollsiffer. Formatet varierer avhengig av alder: individer født før 1990 bruker en + separator i stedet for -, noe som endrer formatet som må oppdages.

Polsk PESEL: 11-sifret identifikator som koder fødselsdato, kjønn, og et kontrollsiffer basert på en vektet sumalgoritme. Korrekt oppdagelse krever både formatmatching og kontrollsiffervalidering.

Disse er ikke formatvariasjoner på et felles mønster. De er strukturelt distinkte identifikatorer med forskjellige lengder, forskjellige valideringsalgoritmer, og forskjellige posisjonskodingsskjemaer. En engelsktrent NER-modell som møter en fransk NIR i tekst vil ikke gjenkjenne det som en nasjonal identifikator — den vil enten ignorere det eller, hvis det matcher et annet mønster, feilklassifisere det.

Den praktiske samsvars konsekvensen

For en samsvarsansvarlig ved en europeisk BPO som behandler kundeservicedata fra Tyskland, Frankrike, Polen, og Nederland samtidig, er den praktiske konsekvensen et systematisk deteksjonsgap i ikke-engelske kundeposter.

Samsvarsansvarliges verktøy rapporterer vellykket PII-anonymisering. De anonymiserte dataene inneholder fortsatt Steuer-IDs i tyske poster, NIR-numre i franske poster, og PESEL-numre i polske poster — fordi verktøyets gjenkjennere for disse formatene enten er fraværende eller utilstrekkelig nøyaktige.

Når det anonymiserte datasettet senere brukes til analyser, testing, eller deles med en forskningspartner, inneholder de "anonymiserte" dataene fortsatt re-identifiserbare nasjonale identifikatordata. GDPR-bruddet er ikke synlig i verktøyets utdata logger. Det blir synlig når en forespørsel om tilgang fra en registrert, en tilsynsmyndighetsrevisjon, eller et datainnbrudd avslører at ikke-engelske identifikatorer ikke ble fjernet.

Forskning som sammenligner hybride flerspråklige PII-detekteringsmetoder mot monolinguale engelsksentriske verktøy fant at hybride tilnærminger oppnår F1-poeng på 0,60 til 0,83 på tvers av europeiske lokaliteter — sammenlignet med nær null ytelse fra engelskspråklige verktøy anvendt på ikke-engelske identifikatorformater.

Hva omfattende dekning krever

Ekte flerspråklig PII-detektering for EU GDPR-samsvar krever tre arkitektoniske lag som fungerer i kombinasjon:

Språk-native spaCy-modeller gir semantisk forståelse av navn, organisasjoner, og steder på språket i teksten. En spaCy-modell trent på tysk tekst forstår at "Müller" er et vanlig etternavn i tysk kontekst — ikke bare et kapitalisert ord. Modeller finnes for 25 høyressurs EU-språk.

Stanza NLP-modeller utvider dekningen til ytterligere språk som ikke dekkes av spaCy på samme nøyaktighetsnivå.

Tverrspråklige transformer-modeller (XLM-RoBERTa) håndterer tverrspråklig tvetydighet som ren mønstermatching ikke kan adressere — og gjenkjenner at et navn som vises i en fransk setning er et personnavn selv om deteksjonsmotoren ikke var spesifikt trent på det navnet.

Regex med jurisdiksjonsspesifikk validering dekker strukturerte nasjonale identifikatorer — Steuer-ID, NIR, PESEL, Personnummer — med kontrollsiffervalidering som eliminerer falske positive.

For samsvarsansvarlig som for øyeblikket går glipp av ikke-engelske identifikatorer: gapet er strukturelt, ikke konfigurasjon. Å legge til ordlister eller utvide regex-dekningen gir marginal forbedring. Omfattende EU GDPR-samsvar for flerspråklige data krever et verktøy bygget med EU-identifikatordekning som et designkrav, ikke en ettertanke.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.