By · Last updated 2026-06-05

Bumalik sa BlogGDPR & Pagsunod

Nawawala sa Presidio ang 220+ na Entity ng GDPR

Ang Presidio ay may humigit-kumulang 40 default na entity recognizer na nakatuon sa mga US identifier. Kailangan ng mga organisasyong European ang IBAN, Codice Fiscale.

June 5, 20267 min basahin
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Nawawala sa Presidio ang 220+ na Entity ng GDPR: Ang EU Coverage Gap

Na-update para sa 2026

Ang Microsoft Presidio ay may humigit-kumulang 40 default na entity recognizer. Para sa mga US deployment, gumagana ito. Sinasaklaw nito ang mga SSN, US passport, driver's license, credit card, at email.

Para sa mga EU deployment, malaki ang agwat. Sinasaklaw ng GDPR ang lahat ng personal na data sa EU. Naaangkop ito anuman ang nasyonalidad ng data subject. Ang mga EU team ay nangangailangan ng mga recognizer na hindi kasama sa Presidio.

Ano ang Kasama sa Presidio

Ang mga default ng Presidio ay nahahati sa apat na grupo.

Mga US-centric na ID:

  • US Social Security Number (SSN)
  • US Passport Number
  • US Driver's License Number
  • US Bank Account Number
  • US ITIN
  • US Medical License Number

Mga Universal na ID:

  • Email Address
  • Phone Number
  • IP Address
  • Credit Card Number
  • Crypto Wallet Address
  • URL

Mga text entity (NER-based):

  • PERSON
  • LOCATION
  • ORGANIZATION
  • DATE_TIME

Limitadong internasyonal:

  • UK NHS Number
  • UK National Insurance Number (NINO)
  • Ilang financial identifier

Kabuuan: humigit-kumulang 40 recognizer.

Ano ang Kailangan ng mga EU Team

Mga Financial ID

Ang IBAN ay lumalabas sa karamihan ng mga EU business file. Lumalabas ito sa mga bayad, invoice, at payroll. Ang IBAN ay sumusunod sa ISO 13616. Ang Presidio ay walang IBAN recognizer.

Isaalang-alang ang isang German fintech. Bawat file ng pagbabayad ay may IBAN. Kung walang IBAN detection, ang tool ay naghahanap lamang ng mga numero ng credit card. Ang pangunahing EU payment ID ay napalampas. Nangangahulugan iyon na ang isang pangunahing piraso ng data na saklaw ng GDPR ay hindi kailanman nahahanap.

Mga National Tax ID

Wala sa mga ito ang nasa mga default ng Presidio:

  • German Steueridentifikationsnummer: 11 digits
  • French NIR: 15 digits na may check key
  • Italian Codice Fiscale: 16 na karakter na may checksum
  • Spanish NIF/NIE: 9 na karakter na may titik
  • Dutch BSN: 9 digits na may elfproef validation

Isang EU payroll team ang humahawak ng mga file mula sa maraming miyembrong estado. Kung wala ang mga ito, nawawala ang mga pinaka-sensitibong ID sa mga talaang iyon.

Mga National Health ID

Nasaklaw ang UK NHS Number. Ang mga ito ay hindi:

  • French NIR (pati na rin isang health ID)
  • German Krankenkassennummer
  • Italian Codice Fiscale (pati na rin isang health ID)
  • Dutch BSN (ginagamit para sa health insurance)

Kailangan ng mga EU health team ng mga ito para sa proteksyon ng data sa antas ng GDPR.

Mga EU Driving License

Ang mga EU driving license ay nahuhulog sa ilalim ng Directive 2006/126/EC. Bawat miyembrong estado ay may sariling format. Ang alphanumeric na estruktura ay naiiba ayon sa bansa. Ang Presidio ay may US-only na mga driver's license recognizer. Wala itong suporta sa EU driving license. Nangangahulugan ito na ang data ng EU driving license ay dumadaan nang hindi natukoy.

Mga VAT Number

Ang mga EU VAT number ay lumalabas sa bawat B2B na kasunduan. Format: 2-titik na country code kasama ang 8-12 digits. Ang Presidio ay walang VAT recognizer. Ang mga VAT number ay naka-link sa mga kumpanya at sa kanilang mga may-ari. Ang mga ito ay personal na data sa ilalim ng GDPR.

Para sa karagdagang impormasyon tungkol sa mga obligasyon ng GDPR, tingnan ang GDPR compliance resources.

Ang Gastos ng Mga Custom Recognizer

Kapag natuklasan ng mga EU team ang agwat, nagtatayo sila ng mga custom recognizer. Ito ay tumatagal ng tunay na oras.

Oras bawat recognizer (magaspang na tantiya):

  • Pananaliksik sa format: 1-2 oras
  • Pagsulat ng Python class: 2-4 oras
  • Pagtatayo ng regex at validation: 2-4 oras
  • Pagdaragdag ng mga context word: 1-2 oras
  • Pagsulat ng mga pagsubok: 2-3 oras
  • Pag-deploy at pagsusuri: 1-2 oras

Iyon ay 9-17 oras bawat recognizer. Mga magaspang na tantiya lamang ang mga ito.

Halimbawa: isang German fintech ang nangangailangan ng apat na recognizer.

IBAN, Steuer-ID, EU driving license, German VAT.

  • 4 na recognizer sa 13 oras bawat isa = 52 oras ng trabaho
  • Sa €100 bawat oras: humigit-kumulang €5,200

Sinasaklaw lamang nito ang unang pagtatayo. Nagbabago ang mga format sa paglipas ng panahon. Ang mga bagong edge case ay lumalabas. Ang mga update ng Presidio API ay maaaring masira ang mga bagay. Ang bawat pagbabago ay nangangailangan ng isang developer upang suriin at ayusin ito. Nagdaragdag ng gastos ang patuloy na trabaho taon-taon.

Ang Managed Library

Pinalawak ng anonym.legal ang Presidio na may 285+ na uri ng entity. Pinapanatili ng koponan ang library na napapanahon. Ang mga EU identifier ay kasama mula sa unang araw.

Ano ang higit pa sa mga default ng Presidio:

  • IBAN sa lahat ng format ng miyembrong estado ng EU
  • Mga tax ID ng miyembrong estado: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL, at iba pa
  • Mga EU national health ID
  • Mga VAT number (format ng EU)
  • Mga format ng EU driving license
  • Mga format ng European passport
  • Mga variant ng entity sa 48 na sinusuportahang wika

Kapag na-update ng Germany ang isang format ng tax ID, ang update ay naipadala kasama ang serbisyo. Walang kailangang pull request mula sa iyong koponan.

Para sa mga ID na hindi nasa library, pinapahintulutan ng custom entity builder na magdagdag ka ng mga pattern. Walang kailangang Python code.

Tingnan ang security and compliance details para sa kung paano gumagana ang mga update at mga audit trail.

Halimbawa ng German Fintech

Isang German fintech ang kailangang makita ang mga IBAN, BIC, Steuer-ID, at Handelsregisternummern sa mga file ng customer.

Rate ng default detection ng Presidio para sa apat na uri na ito: 0%.

Wala sa default na library ang alinman sa mga ito. Hindi ito mahinang precision. Ito ay zero na deteksyon. Hindi sila bahagyang napalampas ng tool. Hindi sila nakikita nito.

Paghahambing ng gastos:

ParaanGastos sa unang taon
Mga custom recognizer (4 x 13 oras sa €100/oras)~€5,200 kasama ang patuloy na pagpapanatili
Managed entity library (Pro plan)€180/taon, lahat ng apat ay nasaklaw

Ang agwat ay humigit-kumulang 29x sa unang taon. Sa bawat taon pagkatapos nito, ang custom na pagpapanatili ay nagdaragdag ng mas maraming gastos. Ang presyo ng managed na serbisyo ay nananatiling flat.

Konklusyon

Ang mga default ng Presidio ay mahusay na naglilingkod sa mga US use case. Para sa mga EU deployment sa ilalim ng GDPR, kulang ang mga ito. Ang agwat ay nangangailangan ng alinman sa custom recognizer work o isang managed na serbisyo.

Para sa mga EU team kung saan kinakailangan ang compliance at mahigpit ang oras ng inhinyero, ang isang pre-built na EU entity library ay nag-aalis ng isang proyektong nagtatayo ng 50+ oras. Maaaring maproseso ang mga file mula sa unang araw. Walang kailangang custom code.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.