GDPR nu are o preferință de limbă
Regulamentul general privind protecția datelor se aplică în mod egal datelor cu caracter personal în limba germană, franceză, poloneză, suedeză, spaniolă, italiană și toate celelalte limbi procesate de organizații supuse Regulamentului. Un identificator ratat în datele clienților germani creează aceeași expunere reglementară ca și un identificator ratat în datele clienților din limba engleză. GDPR nu face distincție în funcție de limbă.
Cele mai multe instrumente de detectare PII o fac.
Instrumentele dominante comerciale și open-source de detectare PII au fost construite și evaluate în principal pe text în limba engleză. Recunoaștetorii lor de entități reflectă acest lucru: numere de asigurări sociale americane, permise de conducere americane, formate de pașapoarte americane și identificatori universali comuni (adrese de e-mail, numere de telefon în format NANP, numere de card de credit). Recunoaștetorii pentru identificatori naționali non-englezi — atunci când există — sunt adesea mai puțin precisi, mai puțin întreținuți și mai susceptibili să producă fals-negative.
Pentru întreprinderile care operează în mai multe state membre ale UE, aceasta creează o lacună sistematică de conformitate: instrumentul raportează că PII a fost detectat și eliminat, dar identificatorii non-englezi care reprezintă cea mai mare expunere GDPR în anumite jurisdicții rămân în date.
Diferența structurală între identificatorii naționali
Decalajul dintre instrumentele centrate pe limba engleză și instrumentele cu adevărat multilingve nu este o chestiune de adăugare a mai multor modele regex. Formatele identificatorilor naționali în statele membre ale UE sunt structuralmente distincte în moduri care necesită cunoștințe specifice jurisdicției pentru a fi detectate corect.
Steuer-Identifikationsnummer germană (Steuer-ID): identificator fiscal cu 11 cifre cu un algoritm specific de cifră de control bazat pe o variantă a formulei Luhn. Un regex SSN generic nu va corespunde acestui format. Un regex care corespunde oricărui număr cu 11 cifre va produce rate enorme de fals-pozitiv în documentele financiare germane.
NIR francez (Numéro d'inscription au répertoire): identificator cu 15 cifre care încorporează sexul titularului, anul nașterii, luna nașterii, departamentul sau codul țării de naștere, numărul de ordine al nașterii și o cheie de control cu 2 cifre. Detectarea necesită înțelegerea structurii și validarea cheii de control.
Personnummer suedez: identificator cu 10 cifre (uneori cu indicator de secol făcând-o 12 cifre) cu o cifră de control Luhn. Formatul variază în funcție de vârstă: persoanele născute înainte de 1990 folosesc un separator + în loc de -, schimbând formatul care trebuie detectat.
PESEL polonez: identificator cu 11 cifre care codifică data nașterii, sexul și o cifră de control bazată pe un algoritm de sumă ponderată. Detectarea corectă necesită atât potrivirea formatului cât și validarea sumei de control.
Acestea nu sunt variații de format pe un model comun. Sunt identificatori structuralmente distincti cu lungimi diferite, algoritmi de validare diferiți și scheme de codificare pozițională diferite. Un model NER antrenat în limba engleză care întâlnește un NIR francez în text nu îl va recunoaște ca identificator național — fie îl va ignora, fie, dacă se potrivește cu alt model, îl va clasifica greșit.
Consecința practică de conformitate
Pentru un ofițer de conformitate la un BPO european care procesează date de servicii clienți din Germania, Franța, Polonia și Olanda simultan, consecința practică este o lacună sistematică de detectare în înregistrările clienților non-englezi.
Instrumentul ofițerului de conformitate raportează anonimizare PII cu succes. Datele anonimizate conțin încă Steuer-ID-uri în înregistrări germane, numere NIR în înregistrări franceze și numere PESEL în înregistrări poloneze — deoarece recunoaștetorii instrumentului pentru aceste formate sunt fie absenti, fie insuficient de precisi.
Atunci când setul de date anonimizat este utilizat mai târziu pentru analize, testare sau partajat cu un partener de cercetare, datele "anonimizate" conțin încă date de identificatori naționali re-identificabile. Încălcarea GDPR nu este vizibilă în jurnalele de ieșire ale instrumentului. Devine vizibilă atunci când o cerere de acces a unui subiect de date, o audit a unei autorități de supraveghere sau o încălcare de date relevă că identificatorii non-englezi nu au fost eliminați.
Cercetarea care compară abordări hibride multilingve de detectare PII cu instrumente centrate pe limba engleză monolingve a constatat că abordările hibride realizează scoruri F1 de 0,60 la 0,83 în locurile europene — comparativ cu performanța aproape zero din instrumente doar în limba engleză aplicate formatelor de identificatori non-englezi.
Ce necesită acoperire cuprinzătoare
Detectarea PII cu adevărat multilingvă pentru conformitatea GDPR a UE necesită trei straturi arhitecturale care funcționează în combinație:
Modele spaCy native de limbă oferă înțelegere semantică a numelor, organizațiilor și locațiilor în limba textului. Un model spaCy antrenat pe text german înțelege că "Müller" este un nume de familie comun în context german — nu doar un cuvânt cu literă mare. Modelele există pentru 25 de limbi europene cu resurse mari.
Modele Stanza NLP extind acoperirea la limbi suplimentare nu acoperite de spaCy la același nivel de acuratețe.
Modele transformator cross-lingve (XLM-RoBERTa) gestionează ambiguitatea cross-limbă pe care potrivirea pură a modelelor nu o poate aborda — recunoscând că un nume care apare într-o propoziție franceză este un nume de persoană chiar dacă motorul de detectare nu a fost antrenat specific pe acel nume.
Regex cu validare specifică jurisdicției acoperă identificatori naționali structurați — Steuer-ID, NIR, PESEL, Personnummer — cu validare sumă de control care elimină fals-pozitivele.
Pentru ofițerul de conformitate al cărui instrument ratează în prezent identificatorii non-englezi: decalajul este structural, nu de configurație. Adăugarea listelor de cuvinte sau extinderea acoperirii regex oferă îmbunătățire marginală. Conformitatea cuprinzătoare GDPR a UE pentru date multilingve necesită un instrument construit cu acoperirea identificatorilor UE ca cerință de proiectare, nu ca gândire ulterioară.
Surse: