Presidio přehlédne více než 220 entit GDPR: mezera v pokrytí EU
Aktualizováno pro rok 2026
Microsoft Presidio se dodává s přibližně 40 výchozími rozpoznávači entit. Pro nasazení v USA to funguje. Pokrývá rodná čísla (SSN), americké pasy, řidičské průkazy, platební karty a e-maily.
Pro nasazení v EU je mezera velká. GDPR pokrývá veškeré osobní údaje EU. To platí bez ohledu na státní příslušnost subjektu údajů. Evropské týmy potřebují rozpoznávače, které Presidio ve výchozím stavu neobsahuje.
Co Presidio obsahuje
Výchozí nastavení Presidia spadá do čtyř skupin.
Americky zaměřené identifikátory:
- Číslo sociálního pojištění USA (SSN)
- Číslo amerického pasu
- Číslo amerického řidičského průkazu
- Číslo amerického bankovního účtu
- Americké ITIN
- Číslo americké lékařské licence
Universální identifikátory:
- E-mailová adresa
- Telefonní číslo
- IP adresa
- Číslo platební karty
- Adresa kryptopeněženky
- URL
Textové entity (na základě NER):
- PERSON
- LOCATION
- ORGANIZATION
- DATE_TIME
Omezené mezinárodní pokrytí:
- Číslo NHS ve Velké Británii
- Britské číslo National Insurance (NINO)
- Některé finanční identifikátory
Celkem: přibližně 40 rozpoznávačů.
Co evropské týmy potřebují
Finanční identifikátory
IBAN se vyskytuje ve většině obchodních souborů EU. Objevuje se v platbách, fakturách a mzdové agendě. IBAN se řídí normou ISO 13616. Presidio nemá žádný rozpoznávač IBAN.
Vezměme si německý fintech. Každý platební soubor obsahuje IBAN. Bez detekce IBAN nástroj hledá pouze čísla platebních karet. Hlavní platební identifikátor EU je přehlédnut. To znamená, že klíčový typ dat chráněných GDPR není nikdy nalezen.
Národní daňové identifikátory
Žádný z těchto identifikátorů není ve výchozím nastavení Presidia:
- Německé Steueridentifikationsnummer: 11 číslic
- Francouzské NIR: 15 číslic s kontrolním klíčem
- Italské Codice Fiscale: 16 znaků s kontrolním součtem
- Španělské NIF/NIE: 9 znaků s písmenem
- Nizozemské BSN: 9 číslic s elfproef validací
Europský mzdový tým zpracovává soubory z mnoha členských států. Bez těchto rozpoznávačů přehlíží nejcitlivější identifikátory v těchto záznamech.
Národní zdravotní identifikátory
Britské číslo NHS je pokryto. Tato pokryta nejsou:
- Francouzské NIR (také zdravotní identifikátor)
- Německé Krankenkassennummer
- Italské Codice Fiscale (také zdravotní identifikátor)
- Nizozemské BSN (používané pro zdravotní pojištění)
Europské zdravotnické týmy tyto identifikátory potřebují pro ochranu dat na úrovni GDPR.
Řidičské průkazy EU
Řidičské průkazy EU spadají pod směrnici 2006/126/ES. Každý členský stát má svůj vlastní formát. Alfanumerická struktura se liší podle země. Presidio má rozpoznávače řidičských průkazů pouze pro USA. Nemá žádnou podporu pro řidičské průkazy EU. To znamená, že data o řidičských průkazech EU procházejí nezjištěna.
Čísla DPH
Čísla DPH EU se vyskytují v každém B2B obchodu. Formát: 2písmenný kód země plus 8–12 číslic. Presidio nemá žádný rozpoznávač DPH. Čísla DPH jsou spojena se společnostmi a jejich vlastníky. Jsou osobními údaji podle GDPR.
Více o povinnostech GDPR viz zdroje pro compliance GDPR.
Náklady na vlastní rozpoznávače
Když evropské týmy mezeru odhalí, budují vlastní rozpoznávače. To vyžaduje skutečný čas.
Čas na jeden rozpoznávač (hrubý odhad):
- Prozkoumání formátu: 1–2 hodiny
- Napsání třídy v Pythonu: 2–4 hodiny
- Sestavení regexu a validace: 2–4 hodiny
- Přidání kontextových slov: 1–2 hodiny
- Napsání testů: 2–3 hodiny
- Nasazení a kontrola: 1–2 hodiny
To je 9–17 hodin na jeden rozpoznávač. Jde pouze o hrubé odhady.
Příklad: německý fintech potřebuje čtyři rozpoznávače.
IBAN, Steuer-ID, řidičský průkaz EU, německé DPH.
- 4 rozpoznávače × 13 hodin = 52 hodin práce
- Při 100 € za hodinu: přibližně 5 200 €
To pokrývá pouze první sestavení. Formáty se v čase mění. Přibývají nové okrajové případy. Aktualizace API Presidia mohou věci rozbít. Každá změna vyžaduje, aby ji vývojář přezkoumal a opravil. Průběžná práce každý rok přidává náklady.
Spravovaná knihovna
anonym.legal rozšiřuje Presidio o více než 285 typů entit. Tým udržuje knihovnu aktuální. Evropské identifikátory jsou zahrnuty od prvního dne.
Co přesahuje výchozí nastavení Presidia:
- IBAN ve formátech všech členských států EU
- Daňové identifikátory členských států: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL a další
- Národní zdravotní identifikátory EU
- Čísla DPH (formát EU)
- Formáty řidičských průkazů EU
- Formáty evropských pasů
- Varianty entit ve 48 podporovaných jazycích
Když Německo aktualizuje formát daňového identifikátoru, aktualizace se dodává se službou. Ze strany vašeho týmu není potřeba žádný pull request.
Pro identifikátory, které v knihovně nejsou, umožňuje vlastní tvůrce entit přidat vzory. Není potřeba žádný kód v Pythonu.
Viz podrobnosti bezpečnosti a compliance pro informace o aktualizacích a auditních záznamech.
Příklad německého fintecku
Německý fintech potřebuje detekovat IBAN, BIC, Steuer-ID a Handelsregisternummern v souborech zákazníků.
Míra detekce výchozím nastavením Presidia pro tyto čtyři typy: 0 %.
Žádný z nich není ve výchozí knihovně. Nejde o nízkou přesnost. Jde o nulové detekce. Nástroj je nepřehlédne částečně. Vůbec je nevidí.
Porovnání nákladů:
| Přístup | Náklady v prvním roce |
|---|---|
| Vlastní rozpoznávače (4 × 13 hod při 100 €/hod) | ~5 200 € plus průběžná údržba |
| Spravovaná knihovna entit (plán Pro) | 180 €/rok, všechny čtyři jsou pokryty |
Rozdíl je přibližně 29násobný v prvním roce. Každý další rok přidává vlastní údržba další náklady. Cena spravované služby zůstává konstantní.
Závěr
Výchozí nastavení Presidia dobře slouží americkým případům použití. Pro nasazení v EU podle GDPR zaostává. Mezera vyžaduje buď práci na vlastních rozpoznávačích, nebo spravovanou službu.
Pro evropské týmy, kde je compliance povinná a inženýrský čas omezený, předem sestavená knihovna entit EU odstraní projekt o rozsahu 50+ hodin. Soubory lze zpracovávat od prvního dne. Nejprve není potřeba žádný vlastní kód.