Orodja za PII samo v anglescini: vrzel GDPR
GDPR nima jezikovnih preferenc
GDPR zajema osebne podatke v katerem koli jeziku. Nemscina, francoscina, polscina, svedscina - vse so enako pokrite. Prezrta Steuer-ID ustvari enako pravno tveganje kot prezrta ameriski stevilka socialne varnosti. Zakon ne gleda na jezik.
Vecina orodij za zaznavanje PII pa gleda.
Vodilna komercialna in odprtokodna orodja so bila zgrajena za anglesko besedilo. Njihovi zaznovalci entitet to odrazajo. Dobro pokrivajo americke stevilke socialne varnosti, americka vozniskim dovoljenja in telefonske formate NANP. Zaznovalci za neangleske nacionalne identifikatorje so manj natancni. Manj dobro se vzdrzujejo. Pogosteje prezrejo prave identifikatorje.
Za podjetja v drzavah clanicah EU to ustvarja vrzel v pokritosti. Orodje poroca, da je zaznavanje popolno. Toda neangleski identifikatorji ostanejo v podatkih. To so pogosto identifikatorji z najvecjo izpostavljenostjo GDPR v dolocenih drzavah.
Podatkovni organi to vidijo. Revizorji to iscejo. Orodje je morda dobro za angleske zapise. Toda ce ne uspe pri nemskih ali francoskih zapisih, ni skladno. Cist porocilo tega ne spremeni.
Nacionalni identifikatorji se razlikujejo po strukturi
Vrzel med orodji, osredotoceni na anglescino, in vecjezikovnimi orodji ni v dodajanju vec vzorcev regex. Evropski nacionalni identifikatorji se med seboj zelo razlikujejo. Potrebujejo logiko, specificno za posamezno drzavo, da se jih pravilno zazna.
Nemska Steuer-Identifikationsnummer (Steuer-ID): 11 stevk. Uporablja kontrolno vsoto, ki temelji na razlicici Luhnove formule. Genericen regex za SSN je ne bo ujel. Regex za katero koli 11-stevilcno stevilo ustvari prevec laznih pozitivov v nemskih dokumentih.
Francoski NIR (Numero d'inscription au repertoire): 15 stevk. Format kodira spol, leto rojstva, mesec rojstva in oddelek rojstva. Vsebuje tudi zaporedno stevilo in 2-stevilcni kontrolni kljuc. Kontrolni kljuc mora biti preverjen za pravilno zaznavanje.
Svédska Personnummer: 10 stevk z Luhnovo kontrolno stevko. Osebe, rojene pred letom 1990, namesto - uporabljajo locilo +. To spremeni format, ki ga je treba zaznati.
Poljska PESEL: 11 stevk. Kodira datum rojstva, spol in kontrolno stevko na podlagi uteznih vsot. Pravilno zaznavanje zahteva tako ujemanje formata kot preverjanje kontrolne vsote.
To niso razlicice skupnega vzorca. Vsaka ima drugacno dolzino. Vsaka uporablja drugacno metodo preverjanja. Vsaka kodira podatke v drugacni shemi polozaja. Anglescinski ucen model NER, ki vidi francoski NIR, ga ne bo prepoznal kot nacionalni identifikator. Prezrl ga bo ali ga napacno razvrstil.
Prakticno tveganje za skladnost
Predstavljajte si referenta za skladnost v evropskem BPO. Hkrati obdeluje podatke iz Nemcije, Francije, Poljske in Nizozemske. Njihovo orodje poroca o uspesni anonimizaciji PII.
Toda rezultat ni popoln. Steuer-ID v nemskih zapisih ostanejo. Stevilke NIR v francoskih zapisih ostanejo. Stevilke PESEL v poljskih zapisih ostanejo. Zaznovalci orodja za te formate so odsotni ali premalo natancni.
Pozneje dataset gre v analitiko ali k raziskovalnemu partnerju. Podatki se vedno vsebujejo nacionalne identifikatorje, ki omogocajo re-identifikacijo. Tezava z GDPR se ne pojavi v izhodnih dnevnikih orodja. Pojavi se, ko prispe zahteva za dostop do osebnih podatkov. Morda se pojavi med revizijo podatkovnega organa. Morda se pojavi po krsitvi podatkov.
Raziskave, ki primerjajo hibridne vecjezikovne pristope z orodji, osredotoCenimi na anglescino, so pokazale jasne rezultate. Hibridne metode dosegajo ocene F1 od 0,60 do 0,83 v evropskih jezikovnih obmocjih. Orodja, ki delujejo samo v anglescini, dosegajo blizu nicle za neangleske formate nacionalnih identifikatorjev.
Oglejte si nas pregled skladnosti z GDPR za to, kako se te vrzeli preslikajo v obveznosti GDPR.
Kaj zahteva popolna pokritost
Pravo vecjezikovno zaznavanje PII za skladnost z EU GDPR zahteva tri plasti.
Jezikovni modeli spaCy zagotavljajo semanticno razumevanje v jeziku besedila. Model, ucen na nemskem besedilu, ve, da je "Muller" pogosto nemsko priimek. Modeli obstajajo za 25 EU jezikov z visokimi viri.
Modeli NLP Stanza razsirijo pokritost na jezike, ki jih spaCy ne pokriva. To doda doseg za vec jezikovnih skupnosti EU.
Medjezikovni transformatorski modeli (XLM-RoBERTa) obravnavajo medjezikovne primere. Ime v francouzi stavku je prepoznano kot ime osebe. To deluje, ceprav pogon ni bil ucen na tistem specificnem imenu.
Regex z validacijo, specificno za posamezno drzavo, pokriva strukturirane nacionalne identifikatorje. Steuer-ID, NIR, PESEL in Personnummer vsak potrebuje svojo logiko kontrolne vsote. To zmanjsa lazne pozitive. Steviljske nize, ki ne uspejo pri pravilih validacije drzave, se filtrirajo.
Vrzel je strukturna. Dodajanje besednih seznamov ali vec vzorcev regex prinese le manjse izboljsave. Vgraditev pokritosti identifikatorjev EU od samega zacetka je edini zanesljiv pristop.
Preverite svoje trenutno orodje
Prosita svojega dobavitelja za ocene F1 na nemskih, francoskih, poljskih in nezemskih zapisih. "Podpira vec jezikov" pogosto pomeni, da orodje najprej prevaja. To ni izvorno skeniranje. Skladnost z GDPR zahteva izvorno skeniranje.
Testirajte z resnimi vzorci nacionalnih identifikatorjev. Sestavite kratek testni nabor z 10 primeri vsakega tipa identifikatorja v vasih operacijah. Steuer-ID, NIR, PESEL, Personnummer. Preverite stopnje zaznavanja. To je hitrejse od polnega testa F1 in hitro pokaze vrzeli.
Oglejte si naso stran o varnosti in skladnosti za to, kako anonym.legal obravnava te zahteve. Za definicije tipov entitet obisite referenco entitet.