PII-verktoay kun for engelsk: GDPR-gapet
GDPR har ingen spraakpreferanse
GDPR dekker persondata pa ethvert sprak. Tysk, fransk, polsk, svensk - alle er dekket likt. Et oversett Steuer-ID utgjor samme juridiske risiko som et oversett personnummer. Loven bryr seg ikke om sprak.
De fleste PII-deteksjonsverktoay gjor det.
De ledende kommersielle og apne kildekode-verktoyene ble bygd for engelsk tekst. Enhetsdetektorene deres gjenspeiler dette. De dekker amerikanske personnumre, amerikanske forerkortnumre og NANP-telefonformater godt. Detektorer for ikke-engelske nasjonale ID-er er mindre noayaktige. De vedlikeholdes darligere. De overser ekte identifikatorer oftere.
For selskaper pa tvers av EU-medlemsland skaper dette et dekningsgap. Verktoayet sier at deteksjonen er fullstendig. Men ikke-engelske identifikatorer forblir i dataene. Disse er ofte identifikatorene med storst GDPR-eksponering i visse land.
Datamyndigheter ser dette. Revisorer ser etter det. Et verktoay kan fungere godt pa engelske poster. Men hvis det feiler pa tyske eller franske poster, er det ikke i samsvar. En ren rapport endrer ikke det.
Nasjonale ID-er er forskjellige i struktur
Gapet mellom engelsksentrerte verktoay og flerspraklige verktoay handler ikke om a legge til flere regex-monster. EU-nasjonale identifikatorer er svart forskjellige fra hverandre. De trenger landsspesifikk logikk for a bli oppdaget korrekt.
Tysk Steuer-Identifikationsnummer (Steuer-ID): 11 sifre. Det bruker en kontrollsum basert pa en Luhn-formel-variant. En generisk SSN-regex vil ikke matche den. En regex for et hvilket som helst 11-sifret tall skaper for mange falske positive i tyske dokumenter.
Fransk NIR (Numéro d'inscription au répertoire): 15 sifre. Formatet koder kjonn, fodselsar, fodselsmåned og fodselsdepartement. Det inkluderer ogsa fodselssrekkefolgekode og en 2-sifret kontrollnokkel. Kontrollnokkelen ma valideres for korrekt deteksjon.
Svensk personnummer: 10 sifre med et Luhn-kontrollsiffer. Personer fodt for 1990 bruker et +-skilletegn i stedet for -. Det endrer formatet som ma oppdages.
Polsk PESEL: 11 sifre. Det koder fodselsdato, kjonn og et kontrollsiffer basert pa vektede summer. Korrekt deteksjon krever bade formatmatching og kontrollsumvalidering.
Disse er ikke varianter av et felles monster. Hver har forskjellig lengde. Hver bruker en annen kontrollmetode. Hver koder data i et annet posisjonsoppsett. En NER-modell trenet pa engelsk som ser en fransk NIR vil ikke gjenkjenne den som en nasjonal identifikator. Den vil ignorere den eller feilklassifisere den.
Den praktiske samsvarsrisikoen
Tenk pa en samsvarsansvarlig i et europeisk BPO. De behandler data fra Tyskland, Frankrike, Polen og Nederland samtidig. Verktoayet rapporterer vellykket PII-anonymisering.
Men resultatet er ikke fullstendig. Steuer-IDs i tyske poster forblir. NIR-numre i franske poster forblir. PESEL-numre i polske poster forblir. Verktoayets detektorer for disse formatene er fravarende eller for unoyaktige.
Senere sendes datasettet til analyse eller til en forskningspartner. Dataene inneholder fortsatt re-identifiserbare nasjonale identifikatorer. GDPR-problemet vises ikke i verktoayets utdatalogg. Det dukker opp nar en foresporgsel om innsyn fra registrerte ankommer. Det kan dukke opp under en revisjon fra datamyndigheten. Det kan dukke opp etter et datainnbrudd.
Forskning som sammenlikner hybride flerspraklige metoder med engelsksentrerte verktoay fant klare resultater. Hybride metoder oppnar F1-score pa 0,60 til 0,83 pa tvers av europeiske lokaliteter. Engelskbaserte verktoay scorer naer null for ikke-engelske nasjonale ID-formater.
Se var GDPR-samsvarsoveroversikt for hvordan disse gapene kartlegges til GDPR-forpliktelser.
Hva full dekning krever
Ekta flerspraklig PII-deteksjon for EU GDPR-samsvar krever tre lag.
Spraakbaserte spaCy-modeller gir semantisk forstaelse pa tekstens sprak. En modell trenet pa tysk tekst vet at "Müller" er et vanlig tysk etternavn. Modeller finnes for 25 sprak med mange ressurser i EU.
Stanza NLP-modeller utvider dekningen til sprak som ikke er i spaCy. Dette legger til rekkevidde for flere EU-spraksamfunn.
Tverrspraklige transformatormodeller (XLM-RoBERTa) handterer tverrspraklige tilfeller. Et navn i en fransk setning gjenkjennes som et personnavn. Dette fungerer selv om motoren ikke ble trenet pa det spesifikke navnet.
Regex med landsspesifikk validering dekker strukturerte nasjonale identifikatorer. Steuer-ID, NIR, PESEL og personnummer trenger hver sin kontrollsumlogikk. Dette reduserer falske positive. Siffersekvenser som feiler landets valideringsregler filtreres ut.
Gapet er strukturelt. A legge til ordlister eller flere regex-monster gir bare liten forbedring. A bygge inn EU-identifikatordekning fra starten er den eneste palitelige tilnaermingen.
Sjekk ditt navarende verktoay
Be leverandoren din om F1-score pa tyske, franske, polske og nederlandske poster. "Stotter flere sprak" betyr ofte at verktoayet bruker oversettelse forst. Det er ikke nativ skanning. GDPR-samsvar krever nativ skanning.
Test med ekte nasjonale ID-eksempler. Bygg et kort testsett med 10 eksempler av hver ID-type i din drift. Steuer-ID, NIR, PESEL, personnummer. Sjekk deteksjonsrater. Dette er raskere enn en full F1-test og viser gap raskt.
Se vart sikkerhets- og samsvarsside for hvordan anonym.legal adresserer disse kravene. For entity-type-definisjoner, besok entities-referansen.