Tilbage til BlogGDPR & Overholdelse

Hvorfor Dit PII-detekteringsværktøj Kun Er...

Et tysk Steuer-ID (11 cifre med kontrolsum) er strukturelt forskelligt fra et amerikansk SSN. Franske NIR-numre har 15 cifre.

March 20, 20268 min læsning
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

GDPR Har Ikke En Sprogpræference

Den Generelle Databeskyttelsesforordning gælder lige for personoplysninger på tysk, fransk, polsk, svensk, spansk, italiensk og alle andre sprog, der behandles af organisationer, der er underlagt forordningen. En overset identifikator i tysk kundedata skaber den samme regulatoriske eksponering som en overset identifikator i engelsk kundedata. GDPR skelner ikke mellem sprog.

De fleste PII-detekteringsværktøjer gør.

De dominerende kommercielle og open-source PII-detekteringsværktøjer blev primært bygget og benchmarket på engelsk tekst. Deres enhedsgenkendere afspejler dette: amerikanske social security numre, amerikanske kørekort, amerikanske pasformater og almindelige universelle identifikatorer (e-mailadresser, telefonnumre i NANP-format, kreditkortnumre). Genkenderne for ikke-engelske nationale identifikatorer - når de findes - er ofte mindre præcise, mindre vedligeholdte og mere tilbøjelige til at producere falske negativer.

For virksomheder, der opererer på tværs af EU-medlemsstater, skaber dette et systematisk overholdelsesgab: værktøjet rapporterer, at PII er blevet registreret og fjernet, men de ikke-engelske identifikatorer, der repræsenterer den største GDPR-eksponering i visse jurisdiktioner, forbliver i dataene.

Den Strukturelle Forskelle Mellem Nationale Identifikatorer

Gabet mellem engelsksprogede værktøjer og ægte flersprogede værktøjer handler ikke om at tilføje flere regex-mønstre. Nationale identifikatorformater på tværs af EU-medlemsstater er strukturelt forskellige på måder, der kræver jurisdiktion-specifik viden for at blive korrekt registreret.

Tysk Steuer-Identifikationsnummer (Steuer-ID): 11-cifret skatteidentifikator med en specifik kontrolsum-algoritme baseret på Luhn-formelvarianten. En generisk SSN-regex vil ikke matche dette format. En regex, der matcher ethvert 11-cifret nummer, vil producere enorme falske positive rater i tyske finansielle dokumenter.

Fransk NIR (Numéro d'inscription au répertoire): 15-cifret identifikator, der inkorporerer indehaverens køn, fødselsår, fødselsmåned, fødselsdepartement eller landekode, fødselsrækkefølge nummer og en 2-cifret kontrolnøgle. Registrering kræver forståelse af strukturen og validering af kontrolnøglen.

Svensk Personnummer: 10-cifret identifikator (nogle gange med århundredes indikator, der gør det til 12 cifre) med en Luhn kontrolciffer. Formatet varierer afhængigt af alder: personer født før 1990 bruger et + separator i stedet for -, hvilket ændrer det format, der skal registreres.

Polsk PESEL: 11-cifret identifikator, der koder fødselsdato, køn og en kontrolciffer baseret på en vægtet sum-algoritme. Korrekt registrering kræver både formatmatch og kontrolsumvalidering.

Disse er ikke formatvariationer på et fælles mønster. De er strukturelt forskellige identifikatorer med forskellige længder, forskellige valideringsalgoritmer og forskellige positionskodningsskemaer. En engelsk-trænet NER-model, der støder på et fransk NIR i teksten, vil ikke genkende det som en national identifikator - den vil enten ignorere det eller, hvis det matcher et andet mønster, fejlkategorisere det.

Den Praktiske Overholdelseskonsekvens

For en compliance officer i en europæisk BPO, der behandler kundeservice data fra Tyskland, Frankrig, Polen og Holland samtidig, er den praktiske konsekvens et systematisk registreringsgab i ikke-engelske kundeposter.

Compliance officerens værktøj rapporterer vellykket PII-anonymisering. De anonymiserede data indeholder stadig Steuer-IDs i tyske optegnelser, NIR-numre i franske optegnelser og PESEL-numre i polske optegnelser - fordi værktøjets genkendere for disse formater enten er fraværende eller utilstrækkeligt præcise.

Når det anonymiserede datasæt senere bruges til analyser, test eller deles med en forskningspartner, indeholder de "anonymiserede" data stadig re-identificerbare nationale identifikator data. GDPR-overtrædelsen er ikke synlig i værktøjets outputlogs. Den bliver synlig, når en anmodning om adgang fra en registreret, en tilsynsmyndighedsrevision eller et databrud afslører, at ikke-engelske identifikatorer ikke blev fjernet.

Forskning, der sammenligner hybride flersprogede PII-detekteringsmetoder mod monolinguale engelsksprogede værktøjer, har fundet, at hybride metoder opnår F1-scorer på 0,60 til 0,83 på tværs af europæiske lokaliteter - sammenlignet med næsten nul præstation fra engelsksprogede værktøjer anvendt på ikke-engelske identifikatorformater.

Hvad Omfattende Dækning Kræver

Ægte flersproget PII-detektion for EU GDPR-overholdelse kræver tre arkitektoniske lag, der arbejder i kombination:

Sprog-native spaCy-modeller giver semantisk forståelse af navne, organisationer og steder på sproget i teksten. En spaCy-model trænet på tysk tekst forstår, at "Müller" er et almindeligt efternavn i tysk kontekst - ikke bare et stort ord. Modeller findes for 25 højt ressource EU-sprog.

Stanza NLP-modeller udvider dækningen til yderligere sprog, der ikke dækkes af spaCy på samme præcisionsniveau.

Cross-lingual transformer-modeller (XLM-RoBERTa) håndterer den tvær-sprogede tvetydighed, som ren mønstergenkendelse ikke kan adressere - ved at genkende, at et navn, der optræder i en fransk sætning, er et personnavn, selvom detektionsmotoren ikke specifikt var trænet på det navn.

Regex med jurisdiktion-specifik validering dækker strukturerede nationale identifikatorer - Steuer-ID, NIR, PESEL, Personnummer - med kontrolsumvalidering, der eliminerer falske positive.

For compliance officer, hvis værktøj i øjeblikket overser ikke-engelske identifikatorer: gabet er strukturelt, ikke konfigurationsmæssigt. At tilføje ordlister eller udvide regex-dækningen giver marginal forbedring. Omfattende EU GDPR-overholdelse for flersprogede data kræver et værktøj bygget med EU-identifikatordækning som et designkrav, ikke som en eftertanke.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.