Viacjazykova detekcia PII pre GDPR
Aktualizovane pre rok 2026
Skryta medzera GDPR
GDPR nema jazykovu preferenciu. Clanok 4(1) definuje "osobne udaje" bez toho, aby menoval jazyk, v ktorom sa vyskytuju. Nemecke Steuer-ID je rovnako chranene ako americke rodne cislo. Francuzske NIR je rovnako regulovane ako britske cislo narodneho poistenia.
Vacsina nastrojov na detekciu PII bola postavena iba pre anglictinu.
Vyskum z ACL 2024 zistil, ze hybridne NLP nastroje dosahuju F1 skore 0,60-0,83 pre europske lokality. Nastroje iba pre anglictinu skoruju blizko nule pre neanglioke narodne formáty ID. Medzera je markantna. Nastroj moze zachytit 95 % anglickeho PII. No prehliadne 40-60 % nemeckeho, francuzskeho, polskeho alebo holandskeho PII v tom istom subore. To je vazny problem. Vystavuje firmy riziku.
Toto je skutocna medzera GDPR. Postihuje takmer kazdu globalnu firmu pouzivajucu anglicky centralne nastroje na redigovanie. Pozrite si naseho sprievodcu GDPR pre viac.
Preco je PII specificke pre localitu
Detekcia PII ma dve casti.
Prva je skenovanie zalozene na vzoroch. To pokryva strukturovane ID, ako su danove cisla a telefonne formaty.
Druha je skenovanie zalozene na NER. To pokryva kontextove entity, ako su mena a adresy.
Obe casti zavisiaod lokality.
Strukturovane ID sa lisia podla krajiny
| Krajina | Danove ID | Format | Validacia |
|---|---|---|---|
| Nemecko | Steuer-ID | 11 cislice | Modulo-11 |
| Francuzsko | NIR | 15 cislice + 2-miestny kluc | INSEE |
| Svédsko | Personnummer | 10 cislice | Luhn |
| Polsko | PESEL | 11 cislice | Modulo-10 |
| Holandsko | BSN | 9 cislice | Elfproef |
| Spanielsko | DNI/NIE | 8 cislice + pismeno | Modulo-23 |
| Taliansko | Codice Fiscale | 16 znakov | Vlastny kontrolny sucet |
Anglicky regex iba pre SSN (NNN-NN-NNNN) nezodpoveda žiadnemu z tychto formatov. Každý potrebuje vlastný regex. Každý tiež potrebuje vlastnú logiku kontrolného súčtu.
NER potrebuje natívne modely
Nemecke mená sa líšia od anglických. "Hans-Dieter Müller" je jasné pre natívny nemecký model. Model trénovaný na angličtine takéto mená často prehliadne.
Falošne poplachy sú tiež problémom. Sledovač problémov Microsoft Presidio ukazuje, že nemecké slová sú chybne klasifikované ako anglické PII. Slovo "Null" (nemecky "nula") je jedným príkladom. Spúšťa falošné zhody mien v modeloch trénovaných na angličtine. V produkčnom použití sa miery chýb zvyšujú na 3 falošné poplachy na každú skutočnú entitu (Alvaro et al., 2024).
Regulačné riziko
Orgány EÚ pre ochranu dát si sú vedomé tohto problému. Niekoľko národných DPA vydalo usmernenia.
Nemecký BfDI: GDPR článok 5(1)(f) sa vzťahuje na všetky záznamy. Pokrýva neanglické dáta spracovávané nástrojmi tretích strán.
Francúzska CNIL: Výročná správa CNIL z roku 2024 vyjadrila obavy. Upozornila na nástroje AI, ktoré spracúvajú francúzske záznamy bez skenovania PII pre francúzsku lokalitu.
EÚ DPA všeobecne: GDPR článok 25 (Ochrana údajov od návrhu) vyžaduje záruky prispôsobené skutočne spracúvaným záznamom. To zahŕňa neanglické PII v globálnych nasadeniach.
Riziko je jasné. Firma môže v audite GDPR preukázať 95 % detekciu PII na anglickom obsahu. Ale ak tiež spracováva nemecké, francúzske a poľské záznamy s rovnakým nástrojom, medzery sa objavia. Audítori si to všimnú. Pokuty môžu nasledovať. Pozrite si našu stránku o zárukách pre to, ako to riešime.
Trojúrovňový dizajn
Výskum a produkčné použitie sa zhodujú na trojúrovňovom hybridnom dizajne ako najlepšom prístupe.
Úroveň 1: Natívne modely spaCy
spaCy poskytuje trénované modely pre 25 lokalít. Tieto zahŕňajú nemčinu, francúzštinu, španielčinu, portugalčinu, taliančinu, holandčinu, ruštinu, čínštinu, japončinu, kórejčinu a poľštinu. Každý model sa trénuje na natívnom texte. Učia sa syntax a vzory entít každej lokality. To je podstatné. Natívny tréning znamená lepšiu návratnosť a menej falošných poplachov.
Pre nemčinu: de_core_news_lg zvláda zložené podstatné mená a nemecké vzory mien.
Pre francúzštinu: fr_core_news_lg zvláda francúzske entity, tituly, miestne názvy a organizácie.
Natívne modely prekonávajú medzijazykové modely pri skenovaní mien pre lokality s vysokými zdrojmi.
Úroveň 2: Stanza pre viac lokalít
Bibliotéka Stanford Stanza pokrýva lokality, ktoré nie sú v spaCy. Tieto zahŕňajú chorvátčinu, slovinčinu a ukrajinskú. To pridáva dosah pre skupiny hovoriacich EÚ, ktorým spaCy neslúži. Stanza je zadarmo a open source. Dobre sa integruje so zvyškom stacku.
Úroveň 3: XLM-RoBERTa pre širší dosah
Pre lokality, kde spaCy a Stanza nemajú modely NER, XLM-RoBERTa vypĺňa medzeru. Trénuje sa na texte Common Crawl v 100 lokalitách. Dosahuje 91,4 % medzijazykové F1 pre detekciu PII (HuggingFace 2024). Dobre zvláda prepínanie kódov. To je kľúčová funkcia. Záleží na ňom, keď jeden dokument obsahuje text v niekoľkých lokalitách naraz.
Navštívte naše dokumenty o tokenovom systéme, aby ste videli, ako volania API škálujú s viacjazykovým objemom.
Typy entít špecifické pre lokalitu
Samotné modely nestačia. Zosúladenie GDPR tiež vyžaduje rozsah typov entít pre ID špecifické pre krajinu.
Národné ID EÚ podľa krajiny:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Telefónne formáty: Každá krajina EÚ má jedinečné prefixové štruktúry. +49, +33 a +48 každý potrebuje vlastnú logiku validácie.
Formáty adries: PSČ sa líšia. Nemecké PLZ používa 5 číslic. Francúzske kódy používajú 5 číslic (rozsah 01-99). Britské PSČ sú alfanumerické. Španielske kódy používajú 5 číslic (01000-52999).
Prípad zo skutočného sveta: Švajčiarska farmaceutická firma
Švajčiarska firma spracúva pracovné zmluvy. Každá zmluva mieša nemecký, francúzsky a anglický text. Švajčiarsko má štyri úradné jazyky. Ich nástroj bol nastavený iba pre nemčinu. Prehliadol všetky PII vo francúzskych sekciách.
Zmluva pre zamestnanca so sídlom v Ženeve obsahovala francúzske číslo AVS (13 číslic), švajčiarsky bankový IBAN a meno vo francúzskom formáte. Nástroj iba pre nemčinu prehliadol meno vo francúzskom formáte. Nenašiel francúzske číslo AVS. Iba čiastočne zistil IBAN.
Trojúrovňový prístup spracúva celý dokument. Detekuje lokalitu na textový segment. Aplikuje správny model NER pre každú časť. Validuje každé národné ID správnou krajinovou logikou.
Dokumenty so zmieśanymi lokalitami
Najťažší prípad je miešanie lokalít v rámci jedného dokumentu. Príklady:
- Anglická zmluva nemeckej firmy s nemeckými zamestnaneckými zápismi (mená, daňové ID)
- Francúzsky formulár súhlasu GDPR s anglickým výpisom o ochrane súkromia
- Chat, kde agent odpovedá po anglicky a zákazník píše po arabsky
XLM-RoBERTa toto zvláda natívne. Nepotrebuje explicitné príznaky lokality. Spracúva text so zmieśanými lokalitami bez predchádzajúcej segmentácie. To šetrí čas. Vyhýba sa tiež chybám z nesprávnych rozdelení.
Pre produkčné použitie dáva kombinácia automatickej detekcie lokality (na úrovni vety) s inferenciou XLM-RoBERTa robustné spracovanie dokumentov so zmieśanými lokalitami.
Praktické kroky
Auditujte dosah svojho nástroja. Opýtajte sa dodávateľa redagovania na F1 skóre pre vaše konkrétne lokality. "Podporuje 20 jazykov" často znamená, že nástroj smeruje text cez strojový preklad ako prvý krok. To nie je natívne skenovanie.
Zmapujte svoje záznamy na lokality. Vykonajte inventár záznamov, ktorý zahŕňa rozloženie lokalít. Globálna firma s 70 % anglickým, 20 % nemeckým a 10 % francúzskym textom čelí iným rizikám. Firma s 95 % anglickým textom je v inej pozícii.
Testujte s ukážkami národných ID. Vytvorte testovaciu sadu s 10 príkladmi národných ID vo vašich operáciách -- Steuer-ID, NIR, PESEL, BSN a ďalšie. Overte miery detekcie. Je to rýchlejšie ako plný F1 test.
Prehodnoťte svoje DPIA. Skontrolujte, či je zahrnutý rozsah lokalít. Neúplná DPIA predpokladajúca iba anglické záznamy môže vyžadovať aktualizáciu. Konajte teraz. Nečakajte, kým audit objaví medzeru.
Pre úplné definície typov entít pozrite referenciu entít a FAQ. Pre plány a miery volaní API navštívte ceny.
Engine detekcie PII anonym.legal používa trojúrovňový viacjazykový prístup. Pokrýva 25 vysoko zdrojových lokalít cez natívne modely spaCy. Stanza pridáva ďalší dosah lokalít. Medzijazykové transformátory XLM-RoBERTa rozširujú rozsah na 48 lokalít. Typy entít špecifické pre krajinu pre všetky členské štáty EÚ sú zahrnuté.
Zdroje
- ACL 2024: Hybrid PII Detection for European Locales
- Scalable Multilingual PII Annotation Framework (arXiv 2025)
- HuggingFace XLM-RoBERTa Cross-Lingual NER Benchmarks
- Microsoft Presidio GitHub Issue #1071 -- German False Positives
- EDPB Guidelines on Article 25 Privacy by Design
- CNIL 2024 Annual Report