Višejezična detekcija PII za GDPR
Ažurirano za 2026.
Skriveni GDPR jaz
GDPR nema jezičku preferencu. Član 4(1) definiše "lične podatke" bez imenovanja jezika u kom se pojavljuju. Nemački Steuer-ID je jednako zaštićen kao američki broj socijalnog osiguranja. Francuski NIR je jednako regulisan kao britanski National Insurance broj.
Većina alata za detekciju PII izgrađena je samo za engleski.
Istraživanje ACL 2024 utvrdilo je da hibridni NLP alati postižu F1 skorove od 0,60–0,83 za evropske lokale. Alati samo za engleski postižu blizu nule za neengleske formate nacionalnih ID-jeva. Jaz je upečatljiv. Alat može uhvatiti 95% engleskog PII. Ipak propušta 40–60% nemačkog, francuskog, poljskog ili holandskog PII u istom fajlu. To je ozbiljan problem. Ostavlja kompanije izloženim.
Ovo je stvarni GDPR jaz. Utiče na skoro svaku globalnu firmu koja koristi alate za redakciju usmerene na engleski. Pogledajte naš GDPR vodič za više.
Zašto je PII specifičan za lokal
Detekcija PII ima dva dela.
Prvi je skeniranje zasnovano na obrascima. Pokriva strukturisane ID-jeve kao što su poreski brojevi i formati telefona.
Drugi je skeniranje zasnovano na NER-u. Pokriva kontekstualne entitete kao što su imena i adrese.
Oba dela zavise od lokala.
Strukturisani ID-jevi se razlikuju po zemlji
| Zemlja | Poreski ID | Format | Validacija |
|---|---|---|---|
| Nemačka | Steuer-ID | 11 cifara | Modulo-11 |
| Francuska | NIR | 15 cifara + 2-cifreni ključ | INSEE |
| Švedska | Personnummer | 10 cifara | Luhn |
| Poljska | PESEL | 11 cifara | Modulo-10 |
| Holandija | BSN | 9 cifara | Elfproef |
| Španija | DNI/NIE | 8 cifara + slovo | Modulo-23 |
| Italija | Codice Fiscale | 16 znakova | Prilagođena kontrolna suma |
Engleski regex za SSN (NNN-NN-NNNN) neće se podudariti ni sa jednim od ovih formata. Svaki zahteva sopstveni regex. Svaki zahteva i sopstvenu logiku kontrolnih suma.
NER zahteva izvorne modele
Nemačka imena se razlikuju od engleskih. "Hans-Dieter Müller" je jasan izvornom nemačkom modelu. Model treniran na engleskom često propušta ovakva imena.
Lažno pozitivni su takođe problem. Microsoft Presidio pratilac problema pokazuje nemačke reči koje se pogrešno klasifikuju kao engleski PII. Reč "Null" (nemački za "nula") je jedan primer. Pokreće lažne pogotke za ime u modelima treniranim na engleskom. U produkcijskoj upotrebi, stope grešaka rastu do 3 lažno pozitivna po stvarnom entitetu (Alvaro et al., 2024).
Regulatorni rizik
EU tela za zaštitu podataka svesna su ovog problema. Nekoliko nacionalnih DPA-a izdalo je smernice.
Nemački BfDI: GDPR član 5(1)(f) primenjuje se na sve zapise. Pokriva ne-engleske podatke obrađene alatima trećih strana.
Francuski CNIL: Godišnji izveštaj CNIL-a za 2024. izrazio je zabrinutost. Označio je AI alate koji obrađuju francuske zapise bez skeniranja PII za francuski lokal.
EU DPA generalno: GDPR član 25 (Privatnost po dizajnu) zahteva zaštitne mere prilagođene stvarnim zapisima koji se obrađuju. Ovo uključuje ne-engleski PII u globalnim primenama.
Rizik je jasan. Firma može pokazati 95% detekciju PII na engleskom sadržaju u GDPR reviziji. Ali ako isti alat koristi i za nemačke, francuske i poljske zapise, praznine će se pojaviti. Revizori to primećuju. Globe mogu uslediti. Pogledajte našu stranicu o zaštitnim merama za to kako mi rešavamo ovo.
Dizajn u tri nivoa
Istraživanje i produkcijska upotreba se slažu da je hibridni dizajn u tri nivoa best pristup.
Nivo 1: Izvorni spaCy modeli
spaCy pruža trenirane modele za 25 lokala. To uključuje nemački, francuski, španski, portugalski, italijanski, holandski, ruski, kineski, japanski, korejski i poljski. Svaki model trenira na izvornom tekstu. Uče sintaksu i obrasce entiteta svakog lokala. Ovo je bitno. Izvorni trening znači bolji odziv i manje lažno pozitivnih.
Za nemački: de_core_news_lg obrađuje složenice i nemačke obrasce imenovanja.
Za francuski: fr_core_news_lg obrađuje francuske entitete, titule, nazive mesta i organizacije.
Izvorni modeli nadmašuju višejezične modele za skeniranje imena na lokalima bogatim resursima.
Nivo 2: Stanza za više lokala
Stanford-ova Stanza biblioteka pokriva lokale koji nisu u spaCy-u. To uključuje hrvatski, slovenački i ukrajiski. Ovo dodaje doseg za EU grupe govornika koje spaCy ne pokriva. Stanza je besplatna i otvorenog koda. Dobro se integriše sa ostatkom steka.
Nivo 3: XLM-RoBERTa za široki doseg
Za lokale gde spaCy i Stanza nemaju NER modele, XLM-RoBERTa popunjava prazninu. Trenira na Common Crawl tekstovima u 100 lokala. Postiže 91,4% višejezičnog F1 za detekciju PII (HuggingFace 2024). Dobro obrađuje mešanje kodova. To je ključna funkcionalnost. Bitna je kada jedan dokument sadrži tekst na nekoliko lokala odjednom.
Posetite naše dokumentaciju token sistema da vidite kako API pozivi skaliraju sa višejezičnim obimom.
Tipovi entiteta specifični za lokal
Sami modeli nisu dovoljni. GDPR usklađenost takođe zahteva opseg tipova entiteta za ID-jeve specifične za zemlju.
EU nacionalni ID-jevi po zemlji:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Formati telefona: Svaka EU zemlja ima jedinstvene strukture prefiksa. +49, +33 i +48 zahtevaju sopstvenu logiku validacije.
Formati adresa: Poštanski brojevi se znatno razlikuju. Nemački PLZ koristi 5 cifara. Francuski kodovi koriste 5 cifara (opseg 01–99). UK poštanski brojevi su alfanumerički. Španski koriste 5 cifara (01000–52999).
Stvarni slučaj: Švajcarska farmaceutska firma
Švajcarska firma obrađuje ugovore o zapošljavanju. Svaki ugovor meša nemački, francuski i engleski tekst. Švajcarska ima četiri zvanična jezika. Njihov alat bio je podešen samo za nemački. Propuštao je sav PII u francuskim delovima.
Ugovor za zaposlenu u Ženevi uključivao je francuski AVS broj (13 cifara), švajcarski bankovni IBAN i ime u francuskom formatu. Alat samo za nemački propustio je ime u francuskom formatu. Nije pronašao francuski AVS broj. Samo delimično je otkrio IBAN.
Pristup u tri nivoa obrađuje ceo dokument. Detektuje lokal po segmentu teksta. Primenjuje odgovarajući NER model za svaki deo. Validira svaki nacionalni ID sa ispravnom logikom za tu zemlju.
Dokumenti sa mešovitim lokalima
Najteži slučaj je mešanje lokala unutar dokumenta. Primeri:
- Engleski ugovor nemačke firme sa nemačkim zapisima o zaposlenima (imena, poreski ID-jevi)
- Francuski GDPR formular za saglasnost sa engleskim odlomkom o privatnosti
- Razgovor u kom agent odgovara na engleskom a korisnik piše na arapskom
XLM-RoBERTa ovo obrađuje nativno. Ne treba mu eksplicitne oznake lokala. Obrađuje mešoviti tekst bez prethodnog segmentiranja. Ovo štedi vreme. Takođe izbegava greške od pogrešnih podela.
Za produkcijsku upotrebu, kombinovanje automatskog prepoznavanja lokala (na nivou rečenice) sa XLM-RoBERTa zaključivanjem daje robusnu obradu dokumenata sa mešovitim lokalima.
Praktični koraci
Proverite doseg vašeg alata. Pitajte vašeg prodavca redakcije za F1 skorove za vaše specifične lokale. "Podržava 20 jezika" često znači da alat najpre prevodi tekst mašinski. To nije izvorni sken.
Mapirajte vaše zapise na lokale. Napravite inventar zapisa koji uključuje distribuciju lokala. Globalna firma sa 70% engleskog, 20% nemačkog i 10% francuskog suočava se sa različitim rizicima. Ona sa 95% engleskog je u drugačijoj poziciji.
Testirajte sa uzorcima nacionalnih ID-jeva. Izgradite test skup sa 10 primera nacionalnih ID-jeva u vašim operacijama — Steuer-ID, NIR, PESEL, BSN i drugi. Proverite stope detekcije. Ovo je brže od punog F1 testa.
Pregledajte vaše DPIA. Proverite da li je obuhvat lokala uključen. Nepotpuna DPIA koja pretpostavlja zapise samo na engleskom može zahtevati ažuriranje. Delujte sada. Ne čekajte reviziju da pronađe jaz.
Za potpune definicije tipova entiteta, pogledajte referencu entiteta i FAQ. Za planove i stope API poziva, posetite cene.
Mehanizam za detekciju PII anonym.legal koristi tronivovski višejezični pristup. Pokriva 25 lokala bogatih resursima putem izvornih spaCy modela. Stanza dodaje dodatni doseg za lokale. XLM-RoBERTa višejezični transformeri proširuju doseg na 48 lokala. Uključeni su tipovi entiteta specifični za svaku EU državu.