Instrumente PII doar în Engleză: Decalajul GDPR
GDPR Nu Are Preferințe de Limbă
GDPR acoperă datele personale în orice limbă. Germană, franceză, poloneză, suedeză — toate sunt acoperite în mod egal. Un Steuer-ID ratat creează același risc legal ca un număr de securitate socială american ratat. Legea nu ține cont de limbă.
Cele mai multe instrumente de detectare PII o fac.
Principalele instrumente comerciale și open-source au fost construite pentru text în engleză. Detectoarele lor de entități reflectă acest lucru. Acoperă bine numerele de securitate socială americane, permisele de conducere americane și formatele de telefon NANP. Detectoarele pentru actele naționale de identitate non-engleze sunt mai puțin precise. Sunt mai puțin bine întreținute. Omit identificatorii reali mai frecvent.
Pentru firmele din statele membre ale UE, aceasta creează un decalaj de acoperire. Instrumentul raportează că detectarea este completă. Dar identificatorii non-englezi rămân în date. Aceștia sunt adesea identificatorii cu cel mai mare risc GDPR în anumite țări.
Autoritățile de date observă acest lucru. Auditorii îl caută. Un instrument poate funcționa bine pe înregistrări în engleză. Dar dacă eșuează pe înregistrări în germană sau franceză, nu este conform. Un raport curat nu schimbă aceasta.
Actele Naționale de Identitate Diferă ca Structură
Decalajul dintre instrumentele centrate pe engleză și instrumentele multilingve nu este o chestiune de adăugare a mai multor tipare regex. Identificatorii naționali din UE sunt foarte diferiți unii de alții. Au nevoie de logică specifică fiecărei țări pentru a fi detectați corect.
Steuer-Identifikationsnummer german (Steuer-ID): 11 cifre. Folosește o sumă de control bazată pe o variantă a formulei Luhn. Un regex generic pentru SSN nu îl va potrivi. Un regex pentru orice număr de 11 cifre creează prea multe false pozitive în documentele germane.
NIR francez (Numéro d'inscription au répertoire): 15 cifre. Formatul codifică sexul, anul nașterii, luna nașterii și departamentul de naștere. Include, de asemenea, ordinea nașterii și o cheie de control de 2 cifre. Cheia de control trebuie validată pentru o detectare corectă.
Personnummer suedez: 10 cifre cu o cifră de control Luhn. Persoanele născute înainte de 1990 folosesc un separator + în loc de -. Aceasta schimbă formatul care trebuie detectat.
PESEL polonez: 11 cifre. Codifică data nașterii, genul și o cifră de control bazată pe sume ponderate. Detectarea corectă necesită atât potrivirea formatului, cât și validarea sumei de control.
Acestea nu sunt variante ale unui tipar comun. Fiecare are o lungime diferită. Fiecare folosește o metodă de control diferită. Fiecare codifică datele într-o schemă diferită de poziționare. Un model NER antrenat pe engleză care vede un NIR francez nu îl va recunoaște ca identificator național. Îl va ignora sau îl va clasifica greșit.
Riscul Practic de Conformitate
Luați în considerare un ofițer de conformitate la un BPO european. Procesează simultan date din Germania, Franța, Polonia și Olanda. Instrumentul lor raportează anonimizare PII reușită.
Dar rezultatul nu este complet. Steuer-ID-urile din înregistrările germane rămân. Numerele NIR din înregistrările franceze rămân. Numerele PESEL din înregistrările poloneze rămân. Detectoarele instrumentului pentru aceste formate lipsesc sau sunt prea imprecise.
Ulterior, setul de date ajunge la analiză sau la un partener de cercetare. Datele conțin în continuare identificatori naționali re-identificabili. Problema GDPR nu apare în jurnalele de ieșire ale instrumentului. Apare când sosește o solicitare de acces a persoanei vizate. Poate apărea în timpul unui audit al autorității de date. Poate apărea după o breșă de date.
Cercetările care compară abordările hibride multilingve cu instrumentele centrate pe engleză au găsit rezultate clare. Metodele hibride ating scoruri F1 de 0,60 până la 0,83 în localizările europene. Instrumentele exclusiv în engleză obțin scoruri aproape de zero pentru formatele naționale de identificare non-engleze.
Consultați prezentarea generală a conformității GDPR pentru modul în care aceste decalaje se mapează la obligațiile GDPR.
Ce Necesită Acoperirea Completă
Detectarea adevărată multilingvă PII pentru conformitatea GDPR UE necesită trei niveluri.
Modele spaCy native pe limbă oferă înțelegere semantică în limba textului. Un model antrenat pe text german știe că „Müller” este un prenume german comun. Modelele există pentru 25 de limbi UE cu resurse ridicate.
Modelele NLP Stanza extind acoperirea la limbile care nu se află în spaCy. Aceasta adaugă acoperire pentru mai multe comunități lingvistice din UE.
Modelele transformatoare multilingve (XLM-RoBERTa) gestionează cazurile multilingve. Un nume într-o propoziție franceză este recunoscut ca nume de persoană. Aceasta funcționează chiar dacă motorul nu a fost antrenat pe acel anume nume.
Regex cu validare specifică fiecărei țări acoperă identificatorii naționali structurați. Steuer-ID, NIR, PESEL și Personnummer au fiecare nevoie de propria logică de sumă de control. Aceasta reduce falsele pozitive. Secvențele de cifre care nu trec regulile de validare ale țării sunt filtrate.
Decalajul este structural. Adăugarea de liste de cuvinte sau mai multe tipare regex oferă doar îmbunătățiri minore. Integrarea acoperirii identificatorilor UE de la bun început este singura abordare fiabilă.
Verificați Instrumentul Actual
Cereți furnizorului dvs. scoruri F1 pe înregistrări în germană, franceză, poloneză și olandeză. „Suportă mai multe limbi” înseamnă adesea că instrumentul folosește mai întâi traducerea. Aceasta nu este scanare nativă. Conformitatea GDPR necesită scanare nativă.
Testați cu exemple reale de acte naționale de identitate. Construiți un set de test scurt cu 10 exemple din fiecare tip de ID din operațiunile dvs. Steuer-ID, NIR, PESEL, Personnummer. Verificați ratele de detectare. Aceasta este mai rapidă decât un test F1 complet și arată rapid decalajele.
Consultați pagina noastră de securitate și conformitate pentru modul în care anonym.legal abordează aceste cerințe. Pentru definițiile tipurilor de entități, vizitați referința entităților.