By · Last updated 2026-06-05

Zpět na blogGDPR a shoda

Presidio přehlédne více než 220 entit GDPR

Presidio dodává přibližně 40 výchozích rozpoznávačů entit zaměřených na americké identifikátory. Evropské organizace potřebují IBAN, Codice Fiscale a další.

June 5, 20267 min čtení
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Presidio přehlédne více než 220 entit GDPR: mezera v pokrytí EU

Aktualizováno pro rok 2026

Microsoft Presidio se dodává s přibližně 40 výchozími rozpoznávači entit. Pro nasazení v USA to funguje. Pokrývá rodná čísla (SSN), americké pasy, řidičské průkazy, platební karty a e-maily.

Pro nasazení v EU je mezera velká. GDPR pokrývá veškeré osobní údaje EU. To platí bez ohledu na státní příslušnost subjektu údajů. Evropské týmy potřebují rozpoznávače, které Presidio ve výchozím stavu neobsahuje.

Co Presidio obsahuje

Výchozí nastavení Presidia spadá do čtyř skupin.

Americky zaměřené identifikátory:

  • Číslo sociálního pojištění USA (SSN)
  • Číslo amerického pasu
  • Číslo amerického řidičského průkazu
  • Číslo amerického bankovního účtu
  • Americké ITIN
  • Číslo americké lékařské licence

Universální identifikátory:

  • E-mailová adresa
  • Telefonní číslo
  • IP adresa
  • Číslo platební karty
  • Adresa kryptopeněženky
  • URL

Textové entity (na základě NER):

  • PERSON
  • LOCATION
  • ORGANIZATION
  • DATE_TIME

Omezené mezinárodní pokrytí:

  • Číslo NHS ve Velké Británii
  • Britské číslo National Insurance (NINO)
  • Některé finanční identifikátory

Celkem: přibližně 40 rozpoznávačů.

Co evropské týmy potřebují

Finanční identifikátory

IBAN se vyskytuje ve většině obchodních souborů EU. Objevuje se v platbách, fakturách a mzdové agendě. IBAN se řídí normou ISO 13616. Presidio nemá žádný rozpoznávač IBAN.

Vezměme si německý fintech. Každý platební soubor obsahuje IBAN. Bez detekce IBAN nástroj hledá pouze čísla platebních karet. Hlavní platební identifikátor EU je přehlédnut. To znamená, že klíčový typ dat chráněných GDPR není nikdy nalezen.

Národní daňové identifikátory

Žádný z těchto identifikátorů není ve výchozím nastavení Presidia:

  • Německé Steueridentifikationsnummer: 11 číslic
  • Francouzské NIR: 15 číslic s kontrolním klíčem
  • Italské Codice Fiscale: 16 znaků s kontrolním součtem
  • Španělské NIF/NIE: 9 znaků s písmenem
  • Nizozemské BSN: 9 číslic s elfproef validací

Europský mzdový tým zpracovává soubory z mnoha členských států. Bez těchto rozpoznávačů přehlíží nejcitlivější identifikátory v těchto záznamech.

Národní zdravotní identifikátory

Britské číslo NHS je pokryto. Tato pokryta nejsou:

  • Francouzské NIR (také zdravotní identifikátor)
  • Německé Krankenkassennummer
  • Italské Codice Fiscale (také zdravotní identifikátor)
  • Nizozemské BSN (používané pro zdravotní pojištění)

Europské zdravotnické týmy tyto identifikátory potřebují pro ochranu dat na úrovni GDPR.

Řidičské průkazy EU

Řidičské průkazy EU spadají pod směrnici 2006/126/ES. Každý členský stát má svůj vlastní formát. Alfanumerická struktura se liší podle země. Presidio má rozpoznávače řidičských průkazů pouze pro USA. Nemá žádnou podporu pro řidičské průkazy EU. To znamená, že data o řidičských průkazech EU procházejí nezjištěna.

Čísla DPH

Čísla DPH EU se vyskytují v každém B2B obchodu. Formát: 2písmenný kód země plus 8–12 číslic. Presidio nemá žádný rozpoznávač DPH. Čísla DPH jsou spojena se společnostmi a jejich vlastníky. Jsou osobními údaji podle GDPR.

Více o povinnostech GDPR viz zdroje pro compliance GDPR.

Náklady na vlastní rozpoznávače

Když evropské týmy mezeru odhalí, budují vlastní rozpoznávače. To vyžaduje skutečný čas.

Čas na jeden rozpoznávač (hrubý odhad):

  • Prozkoumání formátu: 1–2 hodiny
  • Napsání třídy v Pythonu: 2–4 hodiny
  • Sestavení regexu a validace: 2–4 hodiny
  • Přidání kontextových slov: 1–2 hodiny
  • Napsání testů: 2–3 hodiny
  • Nasazení a kontrola: 1–2 hodiny

To je 9–17 hodin na jeden rozpoznávač. Jde pouze o hrubé odhady.

Příklad: německý fintech potřebuje čtyři rozpoznávače.

IBAN, Steuer-ID, řidičský průkaz EU, německé DPH.

  • 4 rozpoznávače × 13 hodin = 52 hodin práce
  • Při 100 € za hodinu: přibližně 5 200 €

To pokrývá pouze první sestavení. Formáty se v čase mění. Přibývají nové okrajové případy. Aktualizace API Presidia mohou věci rozbít. Každá změna vyžaduje, aby ji vývojář přezkoumal a opravil. Průběžná práce každý rok přidává náklady.

Spravovaná knihovna

anonym.legal rozšiřuje Presidio o více než 285 typů entit. Tým udržuje knihovnu aktuální. Evropské identifikátory jsou zahrnuty od prvního dne.

Co přesahuje výchozí nastavení Presidia:

  • IBAN ve formátech všech členských států EU
  • Daňové identifikátory členských států: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL a další
  • Národní zdravotní identifikátory EU
  • Čísla DPH (formát EU)
  • Formáty řidičských průkazů EU
  • Formáty evropských pasů
  • Varianty entit ve 48 podporovaných jazycích

Když Německo aktualizuje formát daňového identifikátoru, aktualizace se dodává se službou. Ze strany vašeho týmu není potřeba žádný pull request.

Pro identifikátory, které v knihovně nejsou, umožňuje vlastní tvůrce entit přidat vzory. Není potřeba žádný kód v Pythonu.

Viz podrobnosti bezpečnosti a compliance pro informace o aktualizacích a auditních záznamech.

Příklad německého fintecku

Německý fintech potřebuje detekovat IBAN, BIC, Steuer-ID a Handelsregisternummern v souborech zákazníků.

Míra detekce výchozím nastavením Presidia pro tyto čtyři typy: 0 %.

Žádný z nich není ve výchozí knihovně. Nejde o nízkou přesnost. Jde o nulové detekce. Nástroj je nepřehlédne částečně. Vůbec je nevidí.

Porovnání nákladů:

PřístupNáklady v prvním roce
Vlastní rozpoznávače (4 × 13 hod při 100 €/hod)~5 200 € plus průběžná údržba
Spravovaná knihovna entit (plán Pro)180 €/rok, všechny čtyři jsou pokryty

Rozdíl je přibližně 29násobný v prvním roce. Každý další rok přidává vlastní údržba další náklady. Cena spravované služby zůstává konstantní.

Závěr

Výchozí nastavení Presidia dobře slouží americkým případům použití. Pro nasazení v EU podle GDPR zaostává. Mezera vyžaduje buď práci na vlastních rozpoznávačích, nebo spravovanou službu.

Pro evropské týmy, kde je compliance povinná a inženýrský čas omezený, předem sestavená knihovna entit EU odstraní projekt o rozsahu 50+ hodin. Soubory lze zpracovávat od prvního dne. Nejprve není potřeba žádný vlastní kód.

Zdroje

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.