GDPR pokriva lične podatke na svakom jeziku. Nemački, francuski, poljski, švedski — svi su pokriveni jednako. Propušten Steuer-ID stvara isti pravni rizik kao propušten američki SSN. Zakon ne mari za jezik.

Većina alata za otkrivanje PII podataka ipak mari.

Vodeći komercijalni i open-source alati razvijeni su za engleski tekst. Njihovi detektori entiteta to odražavaju. Dobro pokrivaju američke socijalne osiguraničke brojeve, američke vozačke dozvole i NANP telefonske formate. Detektori za neengleske nacionalne identifikatore su manje precizni. Manje se održavaju. Češće propuštaju stvarne identifikatore.

Za firme u državama EU to stvara prazninu u pokrivenosti. Alat kaže da je otkrivanje završeno. Ali neengleski identifikatori ostaju u podacima. Često su to upravo identifikatori s najvećom GDPR izloženošću u pojedinim zemljama.

Organi za zaštitu podataka to vide. Revizori to traže. Alat može dobro da funkcioniše na engleskim evidencijama. Ali ako ne uspe na nemačkim ili francuskim evidencijama, nije usklađen. Čist izveštaj to ne menja.

Nacionalni identifikatori se razlikuju po strukturi

Jaz između alata usmerenih na engleski i višejezičnih alata nije pitanje dodavanja više regex obrazaca. EU nacionalni identifikatori međusobno se veoma razlikuju. Potrebna im je logika specifična za svaku zemlju da bi se ispravno detektovali.

Nemački Steuer-Identifikationsnummer (Steuer-ID): 11 cifara. Koristi kontrolnu sumu zasnovanu na varijanti Luhn formule. Generički SSN regex ga neće prepoznati. Regex za bilo koji 11-cifreni broj stvara previše lažno pozitivnih rezultata u nemačkim dokumentima.

Francuski NIR (Numéro d'inscription au répertoire): 15 cifara. Format kodira pol, godinu rođenja, mesec rođenja i departman. Uključuje i redni broj i 2-cifreni kontrolni ključ. Kontrolni ključ mora biti validiran za ispravno otkrivanje.

Švedski Personnummer: 10 cifara s Luhn kontrolnom cifrom. Osobe rođene pre 1990. koriste + separator umesto -. To menja format koji mora biti detektovan.

Poljski PESEL: 11 cifara. Kodira datum rođenja, pol i kontrolnu cifru zasnovanu na ponderisanim sumama. Za ispravno otkrivanje potrebno je i podudaranje formata i validacija kontrolne sume.

Ovo nisu varijante zajedničkog obrasca. Svaki ima različitu dužinu. Svaki koristi različitu metodu provere. Svaki kodira podatke u drugačijoj šemi pozicija. NER model obučen na engleskom koji vidi francuski NIR neće ga prepoznati kao nacionalni identifikator. Ignorovaće ga ili pogrešno klasifikovati.

Praktični rizik usklađenosti

Zamislite oficira za usklađenost u evropskom BPO preduzeću. Istovremeno obrađuje podatke iz Nemačke, Francuske, Poljske i Holandije. Njihov alat izveštava o uspešnoj anonimizaciji PII podataka.

Ali rezultat nije kompletan. Steuer-ID podaci u nemačkim evidencijama ostaju. NIR brojevi u francuskim evidencijama ostaju. PESEL brojevi u poljskim evidencijama ostaju. Detektori alata za ove formate su odsutni ili previše neprecizni.

Kasnije, skup podataka odlazi u analitiku ili istraživačkom partneru. Podaci i dalje sadrže re-identifikabilne nacionalne identifikatore. GDPR problem se ne pojavljuje u izlaznim evidencijama alata. Pojavljuje se kada stigne zahtev za pristup podacima od strane subjekta. Može se pojaviti tokom revizije organa za zaštitu podataka. Može se pojaviti nakon povrede podataka.

Istraživanja koja porede hibridne višejezične pristupe s alatima usmerenim na engleski daju jasne rezultate. Hibridne metode postižu F1 ocene od 0,60 do 0,83 u evropskim lokalima. Alati samo za engleski postižu blizu nule za neengleske formate nacionalnih identifikatora.

Pogledajte naš pregled usklađenosti s GDPR propisima za to kako ove praznine odgovaraju GDPR obavezama.

Šta potpuna pokrivenost zahteva

Istinsko višejezično otkrivanje PII podataka za EU GDPR usklađenost zahteva tri sloja.

Jezički izvorni spaCy modeli pružaju semantičko razumevanje na jeziku teksta. Model obučen na nemačkom tekstu zna da je Müller uobičajeno nemačko prezime. Modeli postoje za 25 visokorazvijenih EU jezika.

Stanza NLP modeli proširuju pokrivenost na jezike kojih nema u spaCy paketu. Ovo povećava doseg za više EU jezičkih zajednica.

Višejezični transformer modeli (XLM-RoBERTa) rešavaju međujezičke slučajeve. Ime u francuskoj rečenici prepoznaje se kao ime osobe. Ovo funkcioniše čak i ako motor nije obučen na tom konkretnom imenu.

Regex s validacijom specifičnom za svaku zemlju pokriva strukturirane nacionalne identifikatore. Steuer-ID, NIR, PESEL i Personnummer svaki zahtevaju sopstvenu logiku kontrolne sume. Ovo smanjuje lažno pozitivne rezultate. Nizovi cifara koji ne prolaze pravila validacije specifična za svaku zemlju se filtriraju.

Jaz je strukturan. Dodavanje listi reči ili više regex obrazaca daje samo manje poboljšanje. Ugradnja pokrivenosti EU identifikatora od samog početka jedini je pouzdan pristup.

Proverite svoj trenutni alat

Pitajte svog vendora za F1 ocene na nemačkim, francuskim, poljskim i holandskim evidencijama. Izjava da alat podržava više jezika često znači da alat prvo prevodi. To nije izvorno skeniranje. GDPR usklađenost zahteva izvorno skeniranje.

Testirajte s realnim uzorcima nacionalnih identifikatora. Napravite kratki skup testova s 10 primera svakog tipa identifikatora u vašim operacijama: Steuer-ID, NIR, PESEL, Personnummer. Proverite stope otkrivanja. Ovo je brže od punog F1 testa i brzo otkriva praznine.

Pogledajte našu stranicu o bezbednosti i usklađenosti za to kako anonym.legal adresira ove zahteve. Za definicije tipova entiteta, posetite referencu za entitete.

Izvori

Povezani članci

GDPR i usklađenost

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

Započnite besplatnu probu Pogledajte funkcije

Alati za PII samo na engleskom: GDPR praznina