By · Last updated 2026-06-05

Späť na blogGDPR a Dodržiavanie

Presidio nedetekuje viac ako 220 entít GDPR

Presidio je dodávané s ~40 predvolenymi rozpoznávacmi entít zameranymi na identifikátory USA. Európske organizácie potrebujú IBAN, Codice Fiscale a dalšie európske identifikátory.

June 5, 20267 min čítania
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Presidio nedetekuje viac ako 220 entít GDPR: medzera v pokrytí EÚ

Aktualizované pre rok 2026

Microsoft Presidio je dodávané s priblizne 40 predvolenymi rozpoznávacmi entít. Pre nasadenia v USA to funguje. Pokryva SSN, pasy USA, vodické preukazy, kreditné karty a emaily.

Pre nasadenia v EÚ je medzera velká. GDPR pokryva všetky osobné údaje EÚ. To platí bez ohadu na národnost dotknutej osoby. Tímy v EÚ potrebujú rozpoznávace, ktore Presidio nedodáva.

Co Presidio obsahuje

Predvolené nastavenia Presidio spadajú do štyroch skupín.

Identifikátory zamerané na USA:

  • Cislo sociálneho poistenia USA (SSN)
  • Cislo pasu USA
  • Cislo vodicského preukazu USA
  • Cislo bankového úctu USA
  • ITIN USA
  • Cislo zdravotnickej licencie USA

Univerzálne identifikátory:

  • Emailová adresa
  • Telefónne cislo
  • IP adresa
  • Cislo kreditnej karty
  • Adresa kryptomenové penazenky
  • URL

Textové entity (zalozené na NER):

  • PERSON
  • LOCATION
  • ORGANIZATION
  • DATE_TIME

Obmedzene medzinárodné:

  • Cislo NHS vo Velke Británii
  • Cislo National Insurance (NINO) vo Velke Británii
  • Niektoré financné identifikátory

Celkovo: priblizne 40 rozpoznávacov.

Co tímy v EÚ potrebujú

Financné identifikátory

IBAN sa objavuje vo vacsine obchodnych súborov EÚ. Vyskytuje sa v platbách, faktúrach a mzdách. IBAN sleduje normu ISO 13616. Presidio nemá ziadny rozpoznávac IBAN.

Vezme si nemecky fintech. Kazdy platobny súbor má IBAN. Bez detekcie IBAN nástroj hladá len císla kreditnych kariet. Hlavny platobny identifikátor EÚ sa prehliadne. To znamená, ze klúcový kúsok dát chránených GDPR nie je nikdy nájdený.

Národné danové identifikacné císla

Ziadne z nasledujúcich nie su v predvolených nastaveniach Presidio:

  • Nemecká Steueridentifikationsnummer: 11 cistice
  • Francúzsky NIR: 15 cistic s kontrolnym klúcom
  • Taliansky Codice Fiscale: 16 znakov s kontrolnym souctem
  • Španielsky NIF/NIE: 9 znakov s písmenom
  • Holandský BSN: 9 cistic s validáciou elfproef

Tím v oblasti miezd v EÚ spracúva súbory z mnohych clenských štátov. Bez tychto rozpoznávacov prehliadne najcitlivejšie identifikátory v tychto záznamoch.

Národné zdravotné identifikátory

Císlo NHS vo Velke Británii je pokryté. Tieto nie su:

  • Francúzsky NIR (taktiez zdravotny identifikátor)
  • Nemecká Krankenkassennummer
  • Taliansky Codice Fiscale (taktiez zdravotny identifikátor)
  • Holandský BSN (pouÎzívany pre zdravotné poistenie)

Tímy v zdravotníctve EÚ potrebujú tieto identifikátory pre ochranu dát na úrovni GDPR.

Vodické preukazy EÚ

Vodické preukazy EÚ podliehajú Smernici 2006/126/ES. Kazdy clenský štát má vlastny formát. Alfanumerická štruktúra sa líši podla krajiny. Presidio má rozpoznávace vodickych preukazov len pre USA. Nemá ziadnu podporu pre vodické preukazy EÚ. To znamená, ze dáta vodickych preukazov EÚ prechádzajú bez povšimnutia.

Císla DPH

Císla DPH v EÚ sa objavujú v kazdom obchodnom B2B rokovaviní. Formát: dvojpísmenový kód krajiny plus 8-12 cistic. Presidio nemá ziadny rozpoznávac DPH. Císla DPH odkazujú na spolocnosti a ich vlastníkov. Su osobnymi údajmi podla GDPR.

Viac o povinnostiach GDPR nájdete v zdrojoch súladu GDPR.

Náklady na vlastné rozpoznávace

Ked tímy v EÚ zistia medzeru, budujú vlastné rozpoznávace. Toto trvá skutocny cas.

Cas na rozpoznávac (hrubý odhad):

  • Výskum formátu: 1-2 hodiny
  • Napísanie triedy Python: 2-4 hodiny
  • Vytvorenie regexu a validácie: 2-4 hodiny
  • Pridanie kontextových slov: 1-2 hodiny
  • Napísanie testov: 2-3 hodiny
  • Nasadenie a kontrola: 1-2 hodiny

To je 9-17 hodín na rozpoznávac. Toto su hrubé odhady.

Príklad: nemecky fintech potrebuje štyri rozpoznávace.

IBAN, Steuer-ID, vodicky preukaz EÚ, nemecká DPH.

  • 4 rozpoznávace po 13 hodinách = 52 hodín práce
  • Pri 100 EUR za hodinu: asi 5 200 EUR

To pokrýva len prvý build. Formáty sa casom menia. Objavujú sa nové krajné prípady. Aktualizácie Presidio API môzu veci rozbít. Kazda zmena potrebuje vývojára na kontrolu a opravu. Priebezná práca pridáva náklady rok po roku.

Spravovaná kniÍznica

anonym.legal rozširuje Presidio o viac ako 285 typov entít. Tím udrzuje kniÍznicu aktuálnu. Identifikátory EÚ su zahrnuté od prvého dna.

Co ide nad rámec predvolených nastavení Presidio:

  • IBAN vo všetkych formátoch clenských štátov EÚ
  • Danové identifikátory clenských štátov: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL a dalšie
  • Národné zdravotné identifikátory EÚ
  • Císla DPH (formát EÚ)
  • Formáty vodickych preukazov EÚ
  • Európske formáty pasov
  • Varianty entít v 48 podporovaných jazykoch

Ked Nemecko aktualizuje formát danového identifikátora, aktualizácia sa dodáva so sluzobou. Ziadny pull request od vášho tímu nie je potrebny.

Pre identifikátory, ktore nie su v kniÍznici, umoznuje vlastny tvorca entít pridávat vzory. Nie je potrebny ziadny kód Python.

Pozrite si podrobnosti o bezpecnosti a súlade, ako fungujú aktualizácie a audit trails.

Príklad nemeckého fintecho

Nemecky fintech potrebuje detekovat IBAN, BIC, Steuer-ID a Handelsregisternummern v súboroch zákazníkov.

Miera detekcie pre tieto štyri typy pri predvolenom nastavení Presidio: 0 %.

Ziadny nie je v predvolenej kniÍznici. To nie je slabá presnost. Je to nula detekcií. Nástroj ich neoprehliadne ciastocne. On ich vôbec nevidí.

Porovnanie nákladov:

PrístupNáklady v prvom roku
Vlastné rozpoznávace (4 x 13 hod pri 100 EUR/hod)~5 200 EUR plus priebezná údrzba
Spravovaná kniÍznica entít (plán Pro)180 EUR/rok, všetky štyri pokryté

Rozdiel je priblizne 29-násobny v prvom roku. Kazdy další rok pridáva viac nákladov na vlastnú údrzbu. Cena spravovanej sluzby zostáva rovnaká.

Záver

Predvolené nastavenia Presidio dobre slúzia prípadom pouÎzitia v USA. Pre nasadenia v EÚ podla GDPR nedostacujú. Medzera vyzaduje bud vlastnú prácu na rozpoznávacoch, alebo spravovanú sluÎzbu.

Pre tímy v EÚ, kde je súlad povinny a cas inziniera je obmedzeny, predbudovaná kniÍznica entít EÚ odstrani projekt budovania s viac ako 50 hodinami. Súbory je mozné spracovávat od prvého dna. Ziadny vlastny kód nie je potrebny vopred.

Zdroje

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.