By · Last updated 2026-03-20

Zpět na blogGDPR a shoda

Nástroje pro PII pouze v angličtině: Mezera v GDPR

Německé Steuer-ID (11 číslic s kontrolním součtem) se strukturálně liší od amerického SSN. Francouzská čísla NIR mají 15 číslic. Polské PESEL a švédské Personnummer jsou také jiné.

March 20, 20268 min čtení
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Nástroje pro PII pouze v angličtině: Mezera v GDPR

GDPR nemá jazykové preference

GDPR se vztahuje na osobní údaje v jakémkoli jazyce. Němčina, francouzština, polština, švédština — všechny jsou pokryty stejnou měrou. Přehlédnuté Steuer-ID vytváří stejné právní riziko jako přehlédnuté číslo sociálního pojištění. Zákon na jazyk nehledí.

Většina nástrojů pro detekci PII ano.

Přední komerční i open-source nástroje byly vytvořeny pro anglický text. Jejich detektory entit to odrážejí. Dobře pokrývají americká čísla sociálního pojištění, americké řidičské průkazy a telefonní formáty NANP. Detektory pro neangličtí národní identifikátory jsou méně přesné. Jsou méně udržovány. Reálné identifikátory přehlíží častěji.

Pro firmy napříč členskými státy EU to vytváří mezeru v pokrytí. Nástroj hlásí, že detekce je kompletní. Ale neangličtí identifikátory zůstávají v datech. Jde přitom často o identifikátory s největší expozicí vůči GDPR v určitých zemích.

Datové úřady to vidí. Auditoři to hledají. Nástroj může fungovat dobře na anglické záznamy. Ale pokud selže na německé nebo francouzské záznamy, není v souladu s předpisy. Čistá zpráva to nezmění.

Národní identifikátory se liší svou strukturou

Rozdíl mezi anglocentrickými a vícejazyčnými nástroji není jen o přidání dalších vzorů pro regulární výrazy. Národní identifikátory v EU se od sebe výrazně liší. Pro správnou detekci vyžadují logiku specifickou pro každou zemi.

Německé Steuer-Identifikationsnummer (Steuer-ID): 11 číslic. Používá kontrolní součet na základě varianty Luhnova vzorce. Obecný vzorec pro SSN jej nerozpozná. Vzorec pro libovolné 11místné číslo vytváří příliš mnoho falešně pozitivních výsledků v německých dokumentech.

Francouzské NIR (Numéro d'inscription au répertoire): 15 číslic. Formát kóduje pohlaví, rok a měsíc narození a département. Obsahuje také pořadové číslo a 2místný kontrolní klíč. Pro správnou detekci musí být kontrolní klíč ověřen.

Švédské Personnummer: 10 číslic s Luhnovým kontrolním číslicí. Osoby narozené před rokem 1990 používají místo oddělovače - oddělovač +. To mění formát, který musí být detekován.

Polské PESEL: 11 číslic. Kóduje datum narození, pohlaví a kontrolní číslici na základě váhových součtů. Správná detekce vyžaduje jak porovnání formátu, tak ověření kontrolního součtu.

Nejde o varianty společného vzoru. Každý má jinou délku. Každý používá jinou metodu kontroly. Každý kóduje data v jiném pozičním schématu. Anglicky trénovaný model NER, který uvidí francouzské NIR, jej nerozpozná jako národní identifikátor. Ignoruje jej nebo jej chybně klasifikuje.

Praktické riziko pro dodržování předpisů

Představte si compliance manažera v evropském BPO. Zpracovává data z Německa, Francie, Polska a Nizozemska najednou. Jejich nástroj hlásí úspěšnou anonymizaci PII.

Ale výsledek není úplný. Steuer-ID v německých záznamech zůstávají. Čísla NIR ve francouzských záznamech zůstávají. Čísla PESEL v polských záznamech zůstávají. Detektory nástroje pro tyto formáty chybí nebo jsou příliš nepřesné.

Pozdější přesunutí datové sady do analytiky nebo výzkumnému partnerovi ponechá data stále obsahující re-identifikovatelné národní identifikátory. Problém s GDPR se v protokolech nástroje neobjeví. Vynoří se, když přijde žádost o přístup k datům. Může se objevit při auditu datového úřadu. Může se objevit po úniku dat.

Výzkum srovnávající hybridní vícejazyčné přístupy s anglocentrickými nástroji přinesl jasné výsledky. Hybridní metody dosahují skóre F1 od 0,60 do 0,83 napříč evropskými lokalitami. Nástroje pouze pro angličtinu dosahují skóre blízkého nule pro neangličtí formáty národních identifikátorů.

Podívejte se na náš přehled souladu s GDPR, jak se tyto mezery mapují na povinnosti GDPR.

Co vyžaduje úplné pokrytí

Skutečná vícejazyčná detekce PII pro soulad s EU GDPR vyžaduje tři vrstvy.

Jazykově nativní modely spaCy poskytují sémantické porozumění v jazyce textu. Model trénovaný na německém textu ví, že „Müller" je běžné německé příjmení. Modely existují pro 25 vysoce zdrojovaných jazyků EU.

Modely Stanza NLP rozšiřují pokrytí na jazyky, které nejsou ve spaCy. Přidává dosah pro více jazykových komunit v EU.

Vícejazyčné transformátorové modely (XLM-RoBERTa) řeší mezijazykové případy. Jméno ve francouzské větě je rozpoznáno jako osobní jméno. To funguje i tehdy, pokud engine nebyl trénován na konkrétním jméně.

Regex s validací specifickou pro danou zemi pokrývá strukturované národní identifikátory. Steuer-ID, NIR, PESEL a Personnummer každý potřebuje vlastní logiku kontrolního součtu. Snižuje to falešně pozitivní výsledky. Číselné sekvence, které nesplňují validační pravidla dané země, jsou odfilterovány.

Mezera je strukturální. Přidáváním slovníků nebo dalších vzorů pro regulární výrazy dosáhnete jen drobného zlepšení. Jediným spolehlivým přístupem je začlenění pokrytí identifikátorů EU od samého začátku.

Zkontrolujte svůj aktuální nástroj

Požádejte svého dodavatele o skóre F1 pro německé, francouzské, polské a nizozemské záznamy. „Podporuje více jazyků" často znamená, že nástroj nejprve použije strojový překlad. To není nativní skenování. Soulad s GDPR vyžaduje nativní skenování.

Testujte s reálnými vzorky národních identifikátorů. Sestavte krátkou testovací sadu s 10 příklady každého typu ID ve vašich operacích. Steuer-ID, NIR, PESEL, Personnummer. Zkontrolujte míru detekce. Je to rychlejší než kompletní test F1 a rychle odhaluje mezery.

Podívejte se na naši stránku bezpečnosti a souladu, jak anonym.legal tyto požadavky řeší. Definice typů entit najdete v referenčním přehledu entit.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.