Presidio nedetekuje viac ako 220 entít GDPR: medzera v pokrytí EÚ
Aktualizované pre rok 2026
Microsoft Presidio je dodávané s priblizne 40 predvolenymi rozpoznávacmi entít. Pre nasadenia v USA to funguje. Pokryva SSN, pasy USA, vodické preukazy, kreditné karty a emaily.
Pre nasadenia v EÚ je medzera velká. GDPR pokryva všetky osobné údaje EÚ. To platí bez ohadu na národnost dotknutej osoby. Tímy v EÚ potrebujú rozpoznávace, ktore Presidio nedodáva.
Co Presidio obsahuje
Predvolené nastavenia Presidio spadajú do štyroch skupín.
Identifikátory zamerané na USA:
- Cislo sociálneho poistenia USA (SSN)
- Cislo pasu USA
- Cislo vodicského preukazu USA
- Cislo bankového úctu USA
- ITIN USA
- Cislo zdravotnickej licencie USA
Univerzálne identifikátory:
- Emailová adresa
- Telefónne cislo
- IP adresa
- Cislo kreditnej karty
- Adresa kryptomenové penazenky
- URL
Textové entity (zalozené na NER):
- PERSON
- LOCATION
- ORGANIZATION
- DATE_TIME
Obmedzene medzinárodné:
- Cislo NHS vo Velke Británii
- Cislo National Insurance (NINO) vo Velke Británii
- Niektoré financné identifikátory
Celkovo: priblizne 40 rozpoznávacov.
Co tímy v EÚ potrebujú
Financné identifikátory
IBAN sa objavuje vo vacsine obchodnych súborov EÚ. Vyskytuje sa v platbách, faktúrach a mzdách. IBAN sleduje normu ISO 13616. Presidio nemá ziadny rozpoznávac IBAN.
Vezme si nemecky fintech. Kazdy platobny súbor má IBAN. Bez detekcie IBAN nástroj hladá len císla kreditnych kariet. Hlavny platobny identifikátor EÚ sa prehliadne. To znamená, ze klúcový kúsok dát chránených GDPR nie je nikdy nájdený.
Národné danové identifikacné císla
Ziadne z nasledujúcich nie su v predvolených nastaveniach Presidio:
- Nemecká Steueridentifikationsnummer: 11 cistice
- Francúzsky NIR: 15 cistic s kontrolnym klúcom
- Taliansky Codice Fiscale: 16 znakov s kontrolnym souctem
- Španielsky NIF/NIE: 9 znakov s písmenom
- Holandský BSN: 9 cistic s validáciou elfproef
Tím v oblasti miezd v EÚ spracúva súbory z mnohych clenských štátov. Bez tychto rozpoznávacov prehliadne najcitlivejšie identifikátory v tychto záznamoch.
Národné zdravotné identifikátory
Císlo NHS vo Velke Británii je pokryté. Tieto nie su:
- Francúzsky NIR (taktiez zdravotny identifikátor)
- Nemecká Krankenkassennummer
- Taliansky Codice Fiscale (taktiez zdravotny identifikátor)
- Holandský BSN (pouÎzívany pre zdravotné poistenie)
Tímy v zdravotníctve EÚ potrebujú tieto identifikátory pre ochranu dát na úrovni GDPR.
Vodické preukazy EÚ
Vodické preukazy EÚ podliehajú Smernici 2006/126/ES. Kazdy clenský štát má vlastny formát. Alfanumerická štruktúra sa líši podla krajiny. Presidio má rozpoznávace vodickych preukazov len pre USA. Nemá ziadnu podporu pre vodické preukazy EÚ. To znamená, ze dáta vodickych preukazov EÚ prechádzajú bez povšimnutia.
Císla DPH
Císla DPH v EÚ sa objavujú v kazdom obchodnom B2B rokovaviní. Formát: dvojpísmenový kód krajiny plus 8-12 cistic. Presidio nemá ziadny rozpoznávac DPH. Císla DPH odkazujú na spolocnosti a ich vlastníkov. Su osobnymi údajmi podla GDPR.
Viac o povinnostiach GDPR nájdete v zdrojoch súladu GDPR.
Náklady na vlastné rozpoznávace
Ked tímy v EÚ zistia medzeru, budujú vlastné rozpoznávace. Toto trvá skutocny cas.
Cas na rozpoznávac (hrubý odhad):
- Výskum formátu: 1-2 hodiny
- Napísanie triedy Python: 2-4 hodiny
- Vytvorenie regexu a validácie: 2-4 hodiny
- Pridanie kontextových slov: 1-2 hodiny
- Napísanie testov: 2-3 hodiny
- Nasadenie a kontrola: 1-2 hodiny
To je 9-17 hodín na rozpoznávac. Toto su hrubé odhady.
Príklad: nemecky fintech potrebuje štyri rozpoznávace.
IBAN, Steuer-ID, vodicky preukaz EÚ, nemecká DPH.
- 4 rozpoznávace po 13 hodinách = 52 hodín práce
- Pri 100 EUR za hodinu: asi 5 200 EUR
To pokrýva len prvý build. Formáty sa casom menia. Objavujú sa nové krajné prípady. Aktualizácie Presidio API môzu veci rozbít. Kazda zmena potrebuje vývojára na kontrolu a opravu. Priebezná práca pridáva náklady rok po roku.
Spravovaná kniÍznica
anonym.legal rozširuje Presidio o viac ako 285 typov entít. Tím udrzuje kniÍznicu aktuálnu. Identifikátory EÚ su zahrnuté od prvého dna.
Co ide nad rámec predvolených nastavení Presidio:
- IBAN vo všetkych formátoch clenských štátov EÚ
- Danové identifikátory clenských štátov: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL a dalšie
- Národné zdravotné identifikátory EÚ
- Císla DPH (formát EÚ)
- Formáty vodickych preukazov EÚ
- Európske formáty pasov
- Varianty entít v 48 podporovaných jazykoch
Ked Nemecko aktualizuje formát danového identifikátora, aktualizácia sa dodáva so sluzobou. Ziadny pull request od vášho tímu nie je potrebny.
Pre identifikátory, ktore nie su v kniÍznici, umoznuje vlastny tvorca entít pridávat vzory. Nie je potrebny ziadny kód Python.
Pozrite si podrobnosti o bezpecnosti a súlade, ako fungujú aktualizácie a audit trails.
Príklad nemeckého fintecho
Nemecky fintech potrebuje detekovat IBAN, BIC, Steuer-ID a Handelsregisternummern v súboroch zákazníkov.
Miera detekcie pre tieto štyri typy pri predvolenom nastavení Presidio: 0 %.
Ziadny nie je v predvolenej kniÍznici. To nie je slabá presnost. Je to nula detekcií. Nástroj ich neoprehliadne ciastocne. On ich vôbec nevidí.
Porovnanie nákladov:
| Prístup | Náklady v prvom roku |
|---|---|
| Vlastné rozpoznávace (4 x 13 hod pri 100 EUR/hod) | ~5 200 EUR plus priebezná údrzba |
| Spravovaná kniÍznica entít (plán Pro) | 180 EUR/rok, všetky štyri pokryté |
Rozdiel je priblizne 29-násobny v prvom roku. Kazdy další rok pridáva viac nákladov na vlastnú údrzbu. Cena spravovanej sluzby zostáva rovnaká.
Záver
Predvolené nastavenia Presidio dobre slúzia prípadom pouÎzitia v USA. Pre nasadenia v EÚ podla GDPR nedostacujú. Medzera vyzaduje bud vlastnú prácu na rozpoznávacoch, alebo spravovanú sluÎzbu.
Pre tímy v EÚ, kde je súlad povinny a cas inziniera je obmedzeny, predbudovaná kniÍznica entít EÚ odstrani projekt budovania s viac ako 50 hodinami. Súbory je mozné spracovávat od prvého dna. Ziadny vlastny kód nie je potrebny vopred.