By · Last updated 2026-03-03

Zpět na blogGDPR a shoda

Vícejazyčná detekce PII pro GDPR

Německý Steuer-ID, francouzský NIR a švédský Personnummer vyžadují každý jinou logiku detekce. Zjistěte, jak mezera v lokalizaci vytváří skryté riziko GDPR.

March 3, 202610 min čtení
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Vícejazyčná detekce PII pro GDPR

Aktualizováno pro rok 2026

Skrytá mezera GDPR

GDPR nemá jazykové preference. Článek 4(1) definuje osobní údaje bez ohledu na jazyk, ve kterém se nacházejí. Německý Steuer-ID je chráněn stejně jako americké číslo sociálního pojištění. Francouzský NIR je regulován stejně jako britské National Insurance number.

Většina nástrojů pro detekci PII byla navržena pouze pro angličtinu.

Výzkum z ACL 2024 zjistil, že hybridní nástroje NLP dosahují F1 skóre 0,60–0,83 pro evropská prostředí. Nástroje pouze pro angličtinu dosahují skóre blízkého nule pro neangličtina národní formáty ID. Propast je výrazná. Nástroj může zachytit 95 % anglického PII. Přitom přehlédne 40–60 % německého, francouzského, polského nebo holandského PII ve stejném souboru. To je vážný problém. Vystavuje firmy riziku.

Toto je skutečná mezera GDPR. Postihuje téměř každou globální firmu používající nástroje pro redigování zaměřené na angličtinu. Viz náš průvodce GDPR pro více informací.

Proč je PII lokálně specifické

Detekce PII má dvě části.

První je skenování na základě vzorů. Pokrývá strukturovaná ID jako daňová čísla a telefonní formáty.

Druhou je skenování pomocí NER. Pokrývá kontextové entity jako jména a adresy.

Obě části závisí na jazykovém prostředí.

Strukturovaná ID se liší podle země

ZeměDaňové IDFormátValidace
NěmeckoSteuer-ID11 číslicModulo-11
FrancieNIR15 číslic + 2místný klíčINSEE
ŠvédskoPersonnummer10 číslicLuhn
PolskoPESEL11 číslicModulo-10
NizozemskoBSN9 číslicElfproef
ŠpanělskoDNI/NIE8 číslic + písmenoModulo-23
ItálieCodice Fiscale16 znakůVlastní kontrolní součet

Anglický regex pro SSN (NNN-NN-NNNN) nebude odpovídat žádnému z těchto formátů. Každý potřebuje vlastní regex. Každý také potřebuje vlastní logiku kontrolního součtu.

NER vyžaduje nativní modely

Německá jména se liší od anglických. Hans-Dieter Müller je pro nativní německý model zřejmý. Model trénovaný na angličtině taková jména často přehlédne.

Falešně pozitivní výsledky jsou také problémem. Sledovač problémů Microsoft Presidio ukazuje německá slova chybně klasifikovaná jako anglické PII. Slovo Null (německy nula) je jedním příkladem. Spouští falešné detekce jmen v modelech trénovaných na angličtině. V produkčním použití chybovost narůstá na 3 falešné pozitivy na skutečnou entitu (Alvaro et al., 2024).

Regulatorní riziko

Evropské orgány pro ochranu dat si jsou tohoto problému vědomy. Několik národních DPA vydalo pokyny.

Německý BfDI: Článek 5(1)(f) GDPR se vztahuje na všechny záznamy. Pokrývá neangličtina data zpracovávaná nástroji třetích stran.

Francouzský CNIL: Výroční zpráva CNIL za rok 2024 vyjádřila obavy. Upozornila na nástroje AI, které zpracovávají francouzské záznamy bez skenování PII pro francouzské prostředí.

Evropské DPA obecně: Článek 25 GDPR (Privacy by Design) vyžaduje záruky přizpůsobené skutečně zpracovávaným záznamům. To zahrnuje neangličtina PII v globálních nasazeních.

Riziko je jasné. Firma může při auditu GDPR prokázat 95% detekci PII na anglickém obsahu. Pokud však zpracovává německé, francouzské a polské záznamy stejným nástrojem, mezery se objeví. Auditoři si toho všimnou. Pokuty mohou následovat. Viz naše stránka ochranných opatření pro způsob, jakým toto řešíme.

Třívrstvý design

Výzkum i produkční praxe se shodují na třívrstvém hybridním designu jako nejlepším přístupu.

Vrstva 1: Nativní modely spaCy

spaCy poskytuje trénované modely pro 25 prostředí. Zahrnují němčinu, francouzštinu, španělštinu, portugalštinu, italštinu, holandštinu, ruštinu, čínštinu, japonštinu, korejštinu a polštinu. Každý model trénuje na nativním textu. Učí se syntaxi a vzory entit každého prostředí. Nativní trénink znamená lepší pokrytí a méně falešných pozitivů.

Pro němčinu: de_core_news_lg zvládá složeniny a německé vzory jmen. Pro francouzštinu: fr_core_news_lg zvládá francouzské entity, tituly, místní jména a organizace.

Nativní modely překonávají mezijazykové modely při skenování jmen na prostředích s bohatými zdroji.

Vrstva 2: Stanza pro více prostředí

Knihovna Stanza od Stanfordu pokrývá prostředí, která spaCy neobsahuje. Patří sem chorvatština, slovinština a ukrajinština. Tím se rozšiřuje dosah pro skupiny mluvčích EU, které spaCy neobsluhuje. Stanza je bezplatná a open source. Dobře se integruje se zbytkem stacku.

Vrstva 3: XLM-RoBERTa pro široký dosah

Pro prostředí, kde spaCy a Stanza nemají NER modely, zaplňuje mezeru XLM-RoBERTa. Trénuje na textu Common Crawl ve 100 prostředích. Dosahuje 91,4% mezijazykového F1 pro detekci PII (HuggingFace 2024). Dobře zvládá přepínání kódu. To je klíčová funkce pro dokumenty s textem ve více jazycích najednou.

Navštivte dokumentaci tokenovacího systému pro škálování API volání s vícejazyčným objemem.

Lokálně specifické typy entit

Modely samotné nestačí. Shoda s GDPR také vyžaduje rozsah typů entit pro ID specifická pro každou zemi.

Národní ID EU podle zemí:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Telefonní formáty: Každá země EU má unikátní struktury předvoleb. +49, +33 a +48 každá potřebuje vlastní logiku validace.

Formáty adres: Poštovní směrovací čísla se velmi liší. Německý PLZ používá 5 číslic. Francouzské kódy používají 5 číslic (rozsah 01–99). Britská PSČ jsou alfanumerická. Španělské kódy používají 5 číslic (01000–52999).

Reálný případ: Švýcarská farmaceutická firma

Švýcarská firma zpracovává pracovní smlouvy. Každá smlouva mísí německý, francouzský a anglický text. Švýcarsko má čtyři úřední jazyky. Jejich nástroj byl nastaven pouze pro němčinu. Přehlédl veškeré PII ve francouzských sekcích.

Smlouva pro zaměstnance se sídlem v Ženevě obsahovala francouzské číslo AVS (13 číslic), švýcarský bankovní IBAN a jméno ve francouzském formátu. Nástroj pouze pro němčinu přehlédl jméno ve francouzském formátu. Nenašel francouzské číslo AVS. IBAN detekoval pouze částečně.

Třívrstvý přístup zpracovává celý dokument. Detekuje prostředí pro každý textový segment. Aplikuje správný NER model pro každou část. Validuje každé národní ID správnou logikou pro danou zemi.

Dokumenty se smíšenými prostředími

Nejtěžší případ je míchání prostředí uvnitř dokumentu. Příklady:

  • Anglická smlouva německé firmy s německými záznamy zaměstnanců (jména, daňová ID)
  • Francouzský souhlas GDPR s anglickým výňatkem o soukromí
  • Chat, kde agent odpovídá anglicky a zákazník píše arabsky

XLM-RoBERTa to zvládá nativně. Nevyžaduje explicitní příznaky prostředí. Zpracovává vícejazyčný text bez předchozí segmentace. To šetří čas a zabraňuje chybám z chybných rozdělení.

Pro produkční použití kombinace automatické detekce prostředí (na úrovni vět) s inferenčním XLM-RoBERTa poskytuje robustní zpracování vícejazyčných dokumentů.

Praktické kroky

Prověřte dosah vašeho nástroje. Požádejte svého dodavatele pro redigování o F1 skóre pro vaše konkrétní prostředí. Podpora 20 jazyků často znamená, že nástroj nejprve text překládá strojovým překladem. To není nativní skenování.

Zmapujte záznamy podle prostředí. Proveďte inventář záznamů, který zahrnuje distribuci prostředí. Globální firma se 70 % angličtiny, 20 % němčiny a 10 % francouzštiny čelí odlišným rizikům než firma s 95 % angličtiny.

Testujte s ukázkami národních ID. Sestavte testovací sadu s 10 příklady národních ID ve vašich operacích — Steuer-ID, NIR, PESEL, BSN a dalších. Ověřte míru detekce. To je rychlejší než úplný F1 test.

Zkontrolujte svá DPIA. Ověřte, zda je zahrnut rozsah prostředí. Neúplné DPIA předpokládající pouze anglické záznamy může potřebovat aktualizaci. Jednejte nyní. Nečekejte, až audit mezeru odhalí.

Úplné definice typů entit najdete v referenci entit a FAQ. Pro plány a sazby API volání navštivte ceník.


Engine pro detekci PII anonym.legal používá třívrstvý vícejazyčný přístup. Pokrývá 25 prostředí s bohatými zdroji prostřednictvím nativních modelů spaCy. Stanza přidává dosah pro další prostředí. Mezijazykové transformery XLM-RoBERTa rozšiřují rozsah na 48 prostředí. Jsou zahrnuty typy entit specifické pro každou zemi pro všechny členské státy EU.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.