Tillbaka till BloggenGDPR & Efterlevnad

Varför ditt PII-detekteringsverktyg endast är...

En tysk Steuer-ID (11 siffror med kontrollsiffra) är strukturellt olik ett amerikanskt SSN. Franska NIR-nummer har 15 siffror.

March 20, 20268 min läsning
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

GDPR har ingen språklig preferens

Den allmänna dataskyddsförordningen gäller lika för personuppgifter på tyska, franska, polska, svenska, spanska, italienska och alla andra språk som behandlas av organisationer som omfattas av förordningen. En missad identifierare i tysk kunddata skapar samma regulatoriska exponering som en missad identifierare i engelsk kunddata. GDPR gör ingen åtskillnad efter språk.

De flesta PII-detekteringsverktyg gör det.

De dominerande kommersiella och öppen källkod PII-detekteringsverktygen har byggts och benchmarkats främst på engelsk text. Deras entitetsigenkännare speglar detta: amerikanska socialförsäkringsnummer, amerikanska körkort, amerikanska passformat och vanliga universella identifierare (e-postadresser, telefonnummer i NANP-format, kreditkortsnummer). Igenkännarna för nationella identifierare på andra språk — när de finns — är ofta mindre exakta, mindre underhållna och mer benägna att producera falska negativa.

För företag som verkar över EU:s medlemsstater skapar detta en systematisk efterlevnadsgap: verktyget rapporterar att PII har upptäckts och tagits bort, men de icke-engelska identifierare som representerar den största GDPR-exponeringen i vissa jurisdiktioner förblir i datan.

Den strukturella skillnaden mellan nationella identifierare

Gapet mellan engelskspråkiga verktyg och genuint flerspråkiga verktyg handlar inte om att lägga till fler regex-mönster. Nationella identifierarformat över EU:s medlemsstater är strukturellt distinkta på sätt som kräver jurisdiktionsspecifik kunskap för att upptäckas korrekt.

Tysk Steuer-Identifikationsnummer (Steuer-ID): 11-siffrig skatteidentifierare med en specifik kontrollsifferalgoritm baserad på Luhn-formelns variant. En generell SSN-regex kommer inte att matcha detta format. En regex som matchar vilket 11-siffrigt nummer som helst kommer att producera enorma falska positiva i tyska finansiella dokument.

Fransk NIR (Numéro d'inscription au répertoire): 15-siffrig identifierare som inkluderar innehavarens kön, födelseår, födelsemånad, födelseavdelning eller landskod, födelseordningsnummer och en 2-siffrig kontrollnyckel. Upptäckten kräver förståelse för strukturen och validering av kontrollnyckeln.

Svenskt Personnummer: 10-siffrig identifierare (ibland med århundradets indikator som gör det 12 siffror) med en Luhn kontrollsiffra. Formatet varierar beroende på ålder: individer födda före 1990 använder en + separator istället för -, vilket förändrar det format som måste upptäckas.

Polsk PESEL: 11-siffrig identifierare som kodar födelsedatum, kön och en kontrollsiffra baserad på en viktad summalgoritm. Korrekt upptäckte kräver både formatmatchning och kontrollsiffervalidering.

Dessa är inte formatvariationer på ett gemensamt mönster. De är strukturellt distinkta identifierare med olika längder, olika valideringsalgoritmer och olika positionskodningsscheman. En engelsktränad NER-modell som stöter på en fransk NIR i texten kommer inte att känna igen den som en nationell identifierare — den kommer antingen att ignorera den eller, om den matchar något annat mönster, felklassificera den.

Den praktiska efterlevnadskonsekvensen

För en efterlevnadsofficer på en europeisk BPO som bearbetar kundservicedata från Tyskland, Frankrike, Polen och Nederländerna samtidigt, är den praktiska konsekvensen ett systematiskt detektionsgap i icke-engelska kundregister.

Efterlevnadsofficerens verktyg rapporterar framgångsrik PII-anonymisering. De anonymiserade uppgifterna innehåller fortfarande Steuer-IDs i tyska register, NIR-nummer i franska register och PESEL-nummer i polska register — eftersom verktygets igenkännare för dessa format antingen är frånvarande eller otillräckligt exakta.

När den anonymiserade datasetet senare används för analys, testning eller delas med en forskningspartner, innehåller de "anonymiserade" uppgifterna fortfarande återidentifierbara nationella identifierardata. GDPR-överträdelsen är inte synlig i verktygets utdata-loggar. Den blir synlig när en begäran om tillgång till data, en tillsynsmyndighetsrevision eller en dataintrång avslöjar att icke-engelska identifierare inte har tagits bort.

Forskning som jämför hybrid flerspråkiga PII-detekteringsmetoder mot monolinguala engelskspråkiga verktyg har funnit att hybridmetoder uppnår F1-poäng på 0.60 till 0.83 över europeiska platser — jämfört med nära noll prestanda från engelskspråkiga verktyg tillämpade på icke-engelska identifierarformat.

Vad omfattande täckning kräver

Sann flerspråkig PII-detektering för EU:s GDPR-efterlevnad kräver tre arkitektoniska lager som arbetar i kombination:

Språknativa spaCy-modeller ger semantisk förståelse av namn, organisationer och platser på textens språk. En spaCy-modell tränad på tysk text förstår att "Müller" är ett vanligt efternamn i tyskt sammanhang — inte bara ett versalord. Modeller finns för 25 högresurs EU-språk.

Stanza NLP-modeller utökar täckningen till ytterligare språk som inte täcks av spaCy på samma noggrannhetsnivå.

Cross-lingual transformer-modeller (XLM-RoBERTa) hanterar den tvärspråkliga tvetydigheten som ren mönsterigenkänning inte kan adressera — och känner igen att ett namn som förekommer i en fransk mening är ett personnamn även om detekteringsmotorn inte specifikt har tränats på det namnet.

Regex med jurisdiktionsspecifik validering täcker strukturerade nationella identifierare — Steuer-ID, NIR, PESEL, Personnummer — med kontrollsiffervalidering som eliminerar falska positiva.

För efterlevnadsofficeren vars verktyg för närvarande missar icke-engelska identifierare: gapet är strukturellt, inte konfigurationsbaserat. Att lägga till ordlistor eller utöka regex-täckningen ger marginell förbättring. Omfattande EU GDPR-efterlevnad för flerspråkiga data kräver ett verktyg som är byggt med EU-identifierartäckning som ett designkrav, inte som en eftertanke.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.