anonym.legal
Înapoi la BlogGDPR & Conformitate

De ce instrumentul dumneavoastră de detectare PII...

Un Steuer-ID german, un NIR francez și un Personnummer suedez necesită fiecare logică de detectare diferită.

March 3, 202610 min citire
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Golul ascuns de conformitate GDPR

GDPR nu are o preferință de limbă. Articolul 4(1) definește "datele personale" fără referință la limba în care apar. Un Steuer-ID german este la fel de protejat ca un număr de asigurare socială din SUA. Un NIR francez este la fel de reglementat ca un număr de asigurare națională din Marea Britanie.

Dar majoritatea instrumentelor de detectare PII au fost construite pentru limba engleză.

Cercetarea publicată la ACL 2024 a constatat că abordările NLP hibride realizează scoruri F1 de 0,60-0,83 pentru localități europene — dar instrumentele doar în limba engleză aplicate textului non-englezesc obțin scoruri aproape zero pentru identificatori structurați naționali. Implicația practică: un instrument de anonimizare implementat în toată o organizație multinațională poate detecta 95% din PII în limba engleză în timp ce ratează 40-60% din PII în limba germană, franceză, poloneză sau olandeză din același set de date.

Acesta este un gol sistematic de conformitate GDPR care afectează practic fiecare întreprindere multinațională care folosește instrumente de anonimizare centrate pe limba engleză.

De ce PII este specific limbii

Detectarea PII are două componente: detectare bazată pe model (identificatori structurați cum ar fi ID-uri fiscale, formate de telefon) și detectare bazată pe NER (entități contextuale cum ar fi nume de persoane, nume de organizații, adrese).

Ambele componente sunt profund specifice limbii.

Identificatorii structurați diferă radical după țară

ȚarăIdentificator fiscalFormatCerință de detectare
GermaniaSteuer-ID11 cifre, algoritm de controlValidare modulo-11
FranțaNIR15 cifre + cheie 2 cifreValidare algoritm INSEE
SuediaPersonnummer10 cifre, indicator de secolValidare Luhn
PoloniaPESEL11 cifre, dată de naștere codificatăValidare modulo-10
Țările de JosBSN9 cifre, elfproef (verificare 11)Algoritm Elfproef
SpaniaDNI/NIE8 cifre + literăValidare modulo-23
ItaliaCodice Fiscale16 caractere alfanumericeSumă de control complexă

Un model regex doar în limba engleză pentru SSN-uri (format: NNN-NN-NNNN) nu va potrivi niciun din acești identificatori. Fiecare necesită logică regex specifică țării plus validare de sumă de control.

Recunoașterea entităților numite necesită modele native ale limbii

Numele de persoane în limba germană urmează modele diferite decât în limba engleză. "Hans-Dieter Müller" și "Anna-Lena Schreiber-Koch" sunt recunoscute ca nume germane prin context — dar un model antrenat în principal pe text englezesc va rata frecvent sau va clasifica greșit.

Mai problematic: fals pozitivii într-o limbă pot deveni fals negativi în alta. Urmărirea problemelor GitHub Microsoft Presidio documentează fals pozitivi sistematici pentru cuvinte germane clasificate greșit ca PII englezesc. Același cuvânt "Null" (german pentru "zero") declanșează fals pozitivi de detectare a numelor în modelele antrenate în limba engleză. Aceasta umflă ratele de fals pozitiv la 3 erori per 1 entitate reală în mediile de producție multilingve (Alvaro et al., 2024).

Expunerea de reglementare

Autoritățile de protecție a datelor din UE sunt din ce în ce mai conștiente de acest gol. Mai multe APD-uri naționale au emis orientări sau acțiuni de aplicare care implică procesarea multilingvă:

BfDI german: A clarificat că GDPR Articolul 5(1)(f) (integritate și confidențialitate) se aplică datelor în toate formele de procesare, inclusiv datele non-englezești procesate de instrumente terțe.

CNIL francez: Raportul anual CNIL 2024 a notat preocupări crescânde cu privire la instrumentele AI care procesează date în limba franceză fără capacități de detectare PII în limba franceză.

APD-uri europene în general: Sub GDPR Articolul 25 (Confidențialitate prin design), măsurile tehnice trebuie să fie adecvate pentru datele reale procesate — care includ PII non-englezesc în implementări multinaționale.

Riscul practic: o organizație poate demonstra eficacitate de detectare PII de 95% pe conținut englezesc în timpul unui audit GDPR, dar dacă procesează și conținut german, francez și polonez cu același instrument, auditorul poate dezvălui goluri sistematice pentru acele limbi.

Abordarea pe trei niveluri pentru detectarea PII multilingvă

Cercetarea academică și implementările de producție au conversat către o arhitectură hibridă pe trei niveluri ca cea mai eficace abordare pentru detectarea PII multilingvă:

Nivelul 1: Modele spaCy native ale limbii (Limbi cu resurse mari)

spaCy oferă componente de conductă antrenate pentru 25 de limbi inclusiv germană, franceză, spaniolă, portugheză, italiană, olandeză, rusă, chineză, japoneză, coreeană, poloneză și altele. Aceste modele sunt antrenate pe corpuri native de limbă și înțeleg morfologia, sintaxa și modelele de entități ale fiecărei limbi.

Pentru germană: modelul de_core_news_lg al spaCy înțelege substantivele compuse, inflexiunea cazului și modelele de nume germane. Pentru franceză: fr_core_news_lg gestionează modelele de entități franceze inclusiv titluri, nume de locuri și formate de organizații.

Modelele native ale limbii realizează precizie și recall semnificativ mai mari pentru detectarea numelor decât modelele cross-lingve aplicate limbilor specifice cu resurse mari.

Nivelul 2: Stanza (Limbi suplimentare)

Biblioteca Stanza a Stanford oferă NER pentru limbi suplimentare neacoperite de oferta comercială a spaCy, inclusiv croată, slovenă, ucraineană și altele. Aceasta extinde acoperirea la limbi cu populații de vorbitori mai mici dar încă semnificative din UE.

Nivelul 3: XLM-RoBERTa (Acoperire cross-lingvă)

Pentru limbi în care nici spaCy nici Stanza nu oferă modele NER antrenate, XLM-RoBERTa oferă transfer cross-lingv. Antrenat pe date Common Crawl în 100 de limbi, XLM-RoBERTa realizează 91,4% F1 cross-lingv pentru detectarea PII (HuggingFace 2024), permițând detectare rezonabilă pentru limbi cu resurse mai mici.

Modelul cross-lingv gestionează code-switching (text în limbi mixte) deosebit de bine — o proprietate care devine critică pentru organizații internaționale în care un singur document poate conține text în mai multe limbi.

Tipuri de entități specifice limbii

Dincolo de modelul de detectare, conformitatea GDPR necesită acoperire tip entitate pentru identificatori specifici țării. Un instrument multilingv necesită:

Identificatori naționali ai UE:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET, numéro de téléphone
  • PL: PESEL, NIP, REGON
  • NL: BSN, BurgerServiceNummer
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Formate de numere de telefon: Fiecare țară din UE are structuri de prefix mobil unice, formate de cod de zonă și convenții de apel local. +49 (Germania), +33 (Franța), +48 (Polonia) necesită fiecare validare specifică țării.

Formate de adrese: Formatele codurilor poștale diferă radical — PLZ german (5 cifre), cod postal francez (5 cifre începând cu 01-99), cod poștal UK (alfanumeric, formate multiple), código postal spaniol (5 cifre 01000-52999).

Caz de utilizare: Documente farmaceutice multilingve elvețiene

O companie farmaceutică elvețiană procesează contracte de angajare care conțin text în germană, franceză și engleză în același document (Elveția are patru limbi oficiale). Instrumentul lor actual este configurat pentru germană și ratează tot PII din secțiunea franceză.

Un contract de angajare pentru un angajat din Geneva face referință la numărul lor AVS francez (13 cifre), IBAN-ul lor bancar elvețian, cantonul lor de reședință și numele lor în format francez. Instrumentul configurat pentru germană ratează numele în format francez, nu detectează modelul de număr AVS francez (diferit de formatul german AHV-Nummer) și detectează doar parțial IBAN-ul.

Abordarea pe trei niveluri procesează documentul în ansamblu, detectând automat limba pentru fiecare segment de text, aplicând modele NER adecvate limbii și folosind validatori regex specifici țării pentru fiecare tip de identificator național — indiferent de limba în care apare.

Gestionarea documentelor în limbi mixte

Problemă cea mai grea a PII multilingv este amestecul de limbi intra-document: un document care conține paragrafe în limbi diferite, propoziții cu code-switching sau text citat într-o limbă diferită de contextul înconjurător.

Exemple:

  • Contractul unei companii germane în limba engleză cu date de angajați germani (nume, ID-uri fiscale)
  • Un formular de consimțământ GDPR francez care include un fragment de politică de confidențialitate în limba engleză
  • Un jurnal de chat cu servicii pentru clienți multilingv în care agentul răspunde în engleză dar clientul scrie în arabă

XLM-RoBERTa gestionează aceasta în mod nativ: antrenamentul cross-lingv înseamnă că nu necesită declarații de limbă explicite și procesează text în limbi mixte fără a necesita segmentare.

Pentru implementări de producție, combinația dintre detectarea automată a limbii (aplicată la nivel de propoziție) și inferența cross-lingvă XLM-RoBERTa oferă gestionarea cea mai robustă a documentelor în limbi mixte.

Orientări practice de implementare

Auditați acoperirea limbii instrumentului dumneavoastră actual: Cereți furnizorului dumneavoastră actual de anonimizare să furnizeze scoruri F1 pentru limbile specifice din datele dumneavoastră. "Suportă 20 de limbi" adesea înseamnă că instrumentul transmite textul prin Google Translate înainte de a aplica NER antrenat în limba engleză — ceea ce nu este același lucru cu detectarea nativă a limbii.

Mapați datele dumneavoastră la limbi: Efectuați un inventar de date care include distribuția limbii. O multinațională cu 70% engleză, 20% germană și 10% franceză are expunere de risc diferită decât una cu 95% engleză.

Testați cu mostre de identificatori naționali: Creați un set de date de test cu 10 exemple fiecare din identificatorii naționali relevanți operațiunilor dumneavoastră (Steuer-ID, NIR, PESEL, BSN, etc.) și verificați ratele de detectare. Acesta este un audit mai rapid decât evaluarea F1 la scară largă.

Revizuiți DPIA-urile dumneavoastră: Dacă aveți Evaluări de impact asupra protecției datelor care acoperă instrumentele de anonimizare, verificați că analiza acoperirii limbii este inclusă. O DPIA incompletă care presupune acoperire doar în limba engleză poate necesita actualizare.


Motorul de detectare PII al anonym.legal folosește o abordare multilingvă pe trei niveluri: modele spaCy native ale limbii pentru 25 de limbi cu resurse mari, Stanza pentru acoperire limbă suplimentară și transformatori cross-lingvi XLM-RoBERTa pentru acoperire generală de 48 de limbi. Tipurile de entități specifice țării pentru toți membrii UE sunt incluse.

Surse:

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.