GDPR har inget språkpreferens
Dataskyddsförordningen gäller lika för personuppgifter på tyska, franska, polska, svenska, spanska, italienska och alla andra språk som behandlas av organisationer som är underkastade förordningen. En missad identifierare i tyska kunduppgifter skapar samma regulatoriska exponering som en missad identifierare i engelska kunduppgifter. GDPR gör ingen distinktion baserad på språk.
De flesta PII-detekteringsverktyg gör det.
De dominerande kommersiella och öppen källkod-verktygen för PII-detektering byggdes och riktmärktes primärt på engelsk text. Deras entitetsigenkännare återspeglar detta: amerikanska personnummer (SSN), amerikanska körkort, amerikanska passformat och vanliga universella identifierare (e-postadresser, telefonnummer i NANP-format, kreditkortsnummer). Igenkännarna för icke-engelska nationella identifierare — när de finns — är ofta mindre noggranna, sämre underhållna och mer benägna att producera falska negativa resultat.
För företag som verkar i flera EU-länder skapar detta ett systematiskt efterlevnadsgap: verktyget rapporterar att PII har identifierats och raderats, men de icke-engelska identifierarna som representerar den största GDPR-exponeringen i vissa jurisdiktioner finns kvar i datan.
Den strukturella skillnaden mellan nationella identifierare
Gapet mellan engelskcentrerade verktyg och genuint flerspråkiga verktyg handlar inte om att lägga till fler regex-mönster. Nationella identifierarformat inom EU:s medlemsstater är strukturellt distinkta på sätt som kräver jurisdiktionsspecifik kunskap för korrekt identifiering.
Tyskt Steuer-Identifikationsnummer (Steuer-ID): 11-siffrig skatteidentifierare med en specifik kontrollsummealgoritm baserad på en variant av Luhn-formeln. En generell SSN-regex matchar inte detta format. En regex som matchar valfritt 11-siffrigt tal ger enorma falskpositivfrekvenser i tyska finansiella dokument.
Franskt NIR (Numéro d'inscription au répertoire): 15-siffrig identifierare som inkluderar innehavarens kön, födelseår, födelsmånad, födelsekommun eller landskod, födelseordningsnummer och en 2-siffrig kontrollnyckel. Detektering kräver förståelse av strukturen och validering av kontrollnyckeln.
Svenskt Personnummer: 10-siffrig identifierare (ibland med sekelsindikator som gör den till 12 siffror) med ett Luhn-kontrollsiffra. Formatet varierar beroende på ålder: individer födda före 1990 använder ett +-avgränsare istället för -, vilket ändrar formatet som måste identifieras.
Polskt PESEL: 11-siffrig identifierare som kodar födelsedag, kön och en kontrollsiffra baserad på en viktad summaalgoritm. Korrekt identifiering kräver både formatmatchning och kontrollsummevalidering.
Dessa är inte formatvariationer på ett gemensamt mönster. De är strukturellt distinkta identifierare med olika längder, olika valideringsalgoritmer och olika positionella kodningsscheman. En engelsktränad NER-modell som stöter på ett franskt NIR i text kommer inte att känna igen det som en nationell identifierare — den ignorerar det antingen eller, om det matchar något annat mönster, klassificerar det felaktigt.
Den praktiska efterlevnadskonsekvensen
För en efterlevnadsansvarig på ett europeiskt BPO-företag som simultant behandlar kundservice-data från Tyskland, Frankrike, Polen och Nederländerna innebär den praktiska konsekvensen ett systematiskt detekteringsgap i icke-engelska kundposter.
Verktyget rapporterar lyckad PII-anonymisering. Den anonymiserade datan innehåller fortfarande Steuer-ID:n i tyska poster, NIR-nummer i franska poster och PESEL-nummer i polska poster — eftersom verktygets igenkännare för dessa format antingen saknas eller är otillräckligt noggranna.
När den anonymiserade datamängden senare används för analys, testning eller delas med en forskningspartner innehåller den "anonymiserade" datan fortfarande återidentifierbar nationell identifierardata. GDPR-överträdelsen syns inte i verktygets utdataloggar. Den framkommer när en begäran om datasubjektsåtkomst, en tillsynsmyndighetsrevision eller ett dataintrång avslöjar att icke-engelska identifierare inte togs bort.
Forskning som jämförde hybridbaserade flerspråkiga PII-detekteringsmetoder med enkelspråkiga engelskcentrerade verktyg fann att hybridmetoder uppnår F1-poäng på 0,60 till 0,83 inom europeiska lokaler — jämfört med nästan nollprestanda från engelskspråkiga verktyg tillämpade på icke-engelska identifierarformat.
Vad heltäckande skydd kräver
Äkta flerspråkig PII-detektering för EU GDPR-efterlevnad kräver tre arkitekturella lager som arbetar i kombination:
Språksinterna spaCy-modeller ger semantisk förståelse av namn, organisationer och platser på textens språk. En spaCy-modell tränad på tysk text förstår att "Müller" är ett vanligt efternamn i tyskt sammanhang — inte bara ett kapitaliserat ord. Modeller finns för 25 högresurs-EU-språk.
Stanza NLP-modeller utökar täckningen till ytterligare språk som inte täcks av spaCy på samma noggrannhetsnivå.
Tvärspråkliga transformermodeller (XLM-RoBERTa) hanterar den tvärspråkliga tvetydigheten som ren mönstermatchning inte kan hantera — igenkänner att ett namn som förekommer i en fransk mening är ett personnamn även om detekteringsmotorn inte specifikt tränades på det namnet.
Regex med jurisdiktionsspecifik validering täcker strukturerade nationella identifierare — Steuer-ID, NIR, PESEL, Personnummer — med kontrollsummevalidering som eliminerar falska positiva resultat.
För den efterlevnadsansvarige vars verktyg för närvarande missar icke-engelska identifierare: gapet är strukturellt, inte konfigurationsrelaterat. Att lägga till ordlistor eller utöka regex-täckningen ger marginell förbättring. Heltäckande EU GDPR-efterlevnad för flerspråkig data kräver ett verktyg byggt med EU-identifierartäckning som ett designkrav, inte en eftertanke.
Källor: