By · Last updated 2026-03-03

Späť na blogGDPR a Dodržiavanie

Viacjazykova detekcia PII pre GDPR

Nemecke Steuer-ID, francuzske NIR a svédske Personnummer vyzaduju roznu logiku detekcie. Zistite, preco anglicky nastroj nechyta europske PII a co s tym robit.

March 3, 202610 min čítania
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Viacjazykova detekcia PII pre GDPR

Aktualizovane pre rok 2026

Skryta medzera GDPR

GDPR nema jazykovu preferenciu. Clanok 4(1) definuje "osobne udaje" bez toho, aby menoval jazyk, v ktorom sa vyskytuju. Nemecke Steuer-ID je rovnako chranene ako americke rodne cislo. Francuzske NIR je rovnako regulovane ako britske cislo narodneho poistenia.

Vacsina nastrojov na detekciu PII bola postavena iba pre anglictinu.

Vyskum z ACL 2024 zistil, ze hybridne NLP nastroje dosahuju F1 skore 0,60-0,83 pre europske lokality. Nastroje iba pre anglictinu skoruju blizko nule pre neanglioke narodne formáty ID. Medzera je markantna. Nastroj moze zachytit 95 % anglickeho PII. No prehliadne 40-60 % nemeckeho, francuzskeho, polskeho alebo holandskeho PII v tom istom subore. To je vazny problem. Vystavuje firmy riziku.

Toto je skutocna medzera GDPR. Postihuje takmer kazdu globalnu firmu pouzivajucu anglicky centralne nastroje na redigovanie. Pozrite si naseho sprievodcu GDPR pre viac.

Preco je PII specificke pre localitu

Detekcia PII ma dve casti.

Prva je skenovanie zalozene na vzoroch. To pokryva strukturovane ID, ako su danove cisla a telefonne formaty.

Druha je skenovanie zalozene na NER. To pokryva kontextove entity, ako su mena a adresy.

Obe casti zavisiaod lokality.

Strukturovane ID sa lisia podla krajiny

KrajinaDanove IDFormatValidacia
NemeckoSteuer-ID11 cisliceModulo-11
FrancuzskoNIR15 cislice + 2-miestny klucINSEE
SvédskoPersonnummer10 cisliceLuhn
PolskoPESEL11 cisliceModulo-10
HolandskoBSN9 cisliceElfproef
SpanielskoDNI/NIE8 cislice + pismenoModulo-23
TalianskoCodice Fiscale16 znakovVlastny kontrolny sucet

Anglicky regex iba pre SSN (NNN-NN-NNNN) nezodpoveda žiadnemu z tychto formatov. Každý potrebuje vlastný regex. Každý tiež potrebuje vlastnú logiku kontrolného súčtu.

NER potrebuje natívne modely

Nemecke mená sa líšia od anglických. "Hans-Dieter Müller" je jasné pre natívny nemecký model. Model trénovaný na angličtine takéto mená často prehliadne.

Falošne poplachy sú tiež problémom. Sledovač problémov Microsoft Presidio ukazuje, že nemecké slová sú chybne klasifikované ako anglické PII. Slovo "Null" (nemecky "nula") je jedným príkladom. Spúšťa falošné zhody mien v modeloch trénovaných na angličtine. V produkčnom použití sa miery chýb zvyšujú na 3 falošné poplachy na každú skutočnú entitu (Alvaro et al., 2024).

Regulačné riziko

Orgány EÚ pre ochranu dát si sú vedomé tohto problému. Niekoľko národných DPA vydalo usmernenia.

Nemecký BfDI: GDPR článok 5(1)(f) sa vzťahuje na všetky záznamy. Pokrýva neanglické dáta spracovávané nástrojmi tretích strán.

Francúzska CNIL: Výročná správa CNIL z roku 2024 vyjadrila obavy. Upozornila na nástroje AI, ktoré spracúvajú francúzske záznamy bez skenovania PII pre francúzsku lokalitu.

EÚ DPA všeobecne: GDPR článok 25 (Ochrana údajov od návrhu) vyžaduje záruky prispôsobené skutočne spracúvaným záznamom. To zahŕňa neanglické PII v globálnych nasadeniach.

Riziko je jasné. Firma môže v audite GDPR preukázať 95 % detekciu PII na anglickom obsahu. Ale ak tiež spracováva nemecké, francúzske a poľské záznamy s rovnakým nástrojom, medzery sa objavia. Audítori si to všimnú. Pokuty môžu nasledovať. Pozrite si našu stránku o zárukách pre to, ako to riešime.

Trojúrovňový dizajn

Výskum a produkčné použitie sa zhodujú na trojúrovňovom hybridnom dizajne ako najlepšom prístupe.

Úroveň 1: Natívne modely spaCy

spaCy poskytuje trénované modely pre 25 lokalít. Tieto zahŕňajú nemčinu, francúzštinu, španielčinu, portugalčinu, taliančinu, holandčinu, ruštinu, čínštinu, japončinu, kórejčinu a poľštinu. Každý model sa trénuje na natívnom texte. Učia sa syntax a vzory entít každej lokality. To je podstatné. Natívny tréning znamená lepšiu návratnosť a menej falošných poplachov.

Pre nemčinu: de_core_news_lg zvláda zložené podstatné mená a nemecké vzory mien. Pre francúzštinu: fr_core_news_lg zvláda francúzske entity, tituly, miestne názvy a organizácie.

Natívne modely prekonávajú medzijazykové modely pri skenovaní mien pre lokality s vysokými zdrojmi.

Úroveň 2: Stanza pre viac lokalít

Bibliotéka Stanford Stanza pokrýva lokality, ktoré nie sú v spaCy. Tieto zahŕňajú chorvátčinu, slovinčinu a ukrajinskú. To pridáva dosah pre skupiny hovoriacich EÚ, ktorým spaCy neslúži. Stanza je zadarmo a open source. Dobre sa integruje so zvyškom stacku.

Úroveň 3: XLM-RoBERTa pre širší dosah

Pre lokality, kde spaCy a Stanza nemajú modely NER, XLM-RoBERTa vypĺňa medzeru. Trénuje sa na texte Common Crawl v 100 lokalitách. Dosahuje 91,4 % medzijazykové F1 pre detekciu PII (HuggingFace 2024). Dobre zvláda prepínanie kódov. To je kľúčová funkcia. Záleží na ňom, keď jeden dokument obsahuje text v niekoľkých lokalitách naraz.

Navštívte naše dokumenty o tokenovom systéme, aby ste videli, ako volania API škálujú s viacjazykovým objemom.

Typy entít špecifické pre lokalitu

Samotné modely nestačia. Zosúladenie GDPR tiež vyžaduje rozsah typov entít pre ID špecifické pre krajinu.

Národné ID EÚ podľa krajiny:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Telefónne formáty: Každá krajina EÚ má jedinečné prefixové štruktúry. +49, +33 a +48 každý potrebuje vlastnú logiku validácie.

Formáty adries: PSČ sa líšia. Nemecké PLZ používa 5 číslic. Francúzske kódy používajú 5 číslic (rozsah 01-99). Britské PSČ sú alfanumerické. Španielske kódy používajú 5 číslic (01000-52999).

Prípad zo skutočného sveta: Švajčiarska farmaceutická firma

Švajčiarska firma spracúva pracovné zmluvy. Každá zmluva mieša nemecký, francúzsky a anglický text. Švajčiarsko má štyri úradné jazyky. Ich nástroj bol nastavený iba pre nemčinu. Prehliadol všetky PII vo francúzskych sekciách.

Zmluva pre zamestnanca so sídlom v Ženeve obsahovala francúzske číslo AVS (13 číslic), švajčiarsky bankový IBAN a meno vo francúzskom formáte. Nástroj iba pre nemčinu prehliadol meno vo francúzskom formáte. Nenašiel francúzske číslo AVS. Iba čiastočne zistil IBAN.

Trojúrovňový prístup spracúva celý dokument. Detekuje lokalitu na textový segment. Aplikuje správny model NER pre každú časť. Validuje každé národné ID správnou krajinovou logikou.

Dokumenty so zmieśanymi lokalitami

Najťažší prípad je miešanie lokalít v rámci jedného dokumentu. Príklady:

  • Anglická zmluva nemeckej firmy s nemeckými zamestnaneckými zápismi (mená, daňové ID)
  • Francúzsky formulár súhlasu GDPR s anglickým výpisom o ochrane súkromia
  • Chat, kde agent odpovedá po anglicky a zákazník píše po arabsky

XLM-RoBERTa toto zvláda natívne. Nepotrebuje explicitné príznaky lokality. Spracúva text so zmieśanými lokalitami bez predchádzajúcej segmentácie. To šetrí čas. Vyhýba sa tiež chybám z nesprávnych rozdelení.

Pre produkčné použitie dáva kombinácia automatickej detekcie lokality (na úrovni vety) s inferenciou XLM-RoBERTa robustné spracovanie dokumentov so zmieśanými lokalitami.

Praktické kroky

Auditujte dosah svojho nástroja. Opýtajte sa dodávateľa redagovania na F1 skóre pre vaše konkrétne lokality. "Podporuje 20 jazykov" často znamená, že nástroj smeruje text cez strojový preklad ako prvý krok. To nie je natívne skenovanie.

Zmapujte svoje záznamy na lokality. Vykonajte inventár záznamov, ktorý zahŕňa rozloženie lokalít. Globálna firma s 70 % anglickým, 20 % nemeckým a 10 % francúzskym textom čelí iným rizikám. Firma s 95 % anglickým textom je v inej pozícii.

Testujte s ukážkami národných ID. Vytvorte testovaciu sadu s 10 príkladmi národných ID vo vašich operáciách -- Steuer-ID, NIR, PESEL, BSN a ďalšie. Overte miery detekcie. Je to rýchlejšie ako plný F1 test.

Prehodnoťte svoje DPIA. Skontrolujte, či je zahrnutý rozsah lokalít. Neúplná DPIA predpokladajúca iba anglické záznamy môže vyžadovať aktualizáciu. Konajte teraz. Nečakajte, kým audit objaví medzeru.

Pre úplné definície typov entít pozrite referenciu entít a FAQ. Pre plány a miery volaní API navštívte ceny.


Engine detekcie PII anonym.legal používa trojúrovňový viacjazykový prístup. Pokrýva 25 vysoko zdrojových lokalít cez natívne modely spaCy. Stanza pridáva ďalší dosah lokalít. Medzijazykové transformátory XLM-RoBERTa rozširujú rozsah na 48 lokalít. Typy entít špecifické pre krajinu pre všetky členské štáty EÚ sú zahrnuté.

Zdroje

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.