Nawawala sa Presidio ang 220+ na Entity ng GDPR: Ang EU Coverage Gap
Na-update para sa 2026
Ang Microsoft Presidio ay may humigit-kumulang 40 default na entity recognizer. Para sa mga US deployment, gumagana ito. Sinasaklaw nito ang mga SSN, US passport, driver's license, credit card, at email.
Para sa mga EU deployment, malaki ang agwat. Sinasaklaw ng GDPR ang lahat ng personal na data sa EU. Naaangkop ito anuman ang nasyonalidad ng data subject. Ang mga EU team ay nangangailangan ng mga recognizer na hindi kasama sa Presidio.
Ano ang Kasama sa Presidio
Ang mga default ng Presidio ay nahahati sa apat na grupo.
Mga US-centric na ID:
- US Social Security Number (SSN)
- US Passport Number
- US Driver's License Number
- US Bank Account Number
- US ITIN
- US Medical License Number
Mga Universal na ID:
- Email Address
- Phone Number
- IP Address
- Credit Card Number
- Crypto Wallet Address
- URL
Mga text entity (NER-based):
- PERSON
- LOCATION
- ORGANIZATION
- DATE_TIME
Limitadong internasyonal:
- UK NHS Number
- UK National Insurance Number (NINO)
- Ilang financial identifier
Kabuuan: humigit-kumulang 40 recognizer.
Ano ang Kailangan ng mga EU Team
Mga Financial ID
Ang IBAN ay lumalabas sa karamihan ng mga EU business file. Lumalabas ito sa mga bayad, invoice, at payroll. Ang IBAN ay sumusunod sa ISO 13616. Ang Presidio ay walang IBAN recognizer.
Isaalang-alang ang isang German fintech. Bawat file ng pagbabayad ay may IBAN. Kung walang IBAN detection, ang tool ay naghahanap lamang ng mga numero ng credit card. Ang pangunahing EU payment ID ay napalampas. Nangangahulugan iyon na ang isang pangunahing piraso ng data na saklaw ng GDPR ay hindi kailanman nahahanap.
Mga National Tax ID
Wala sa mga ito ang nasa mga default ng Presidio:
- German Steueridentifikationsnummer: 11 digits
- French NIR: 15 digits na may check key
- Italian Codice Fiscale: 16 na karakter na may checksum
- Spanish NIF/NIE: 9 na karakter na may titik
- Dutch BSN: 9 digits na may elfproef validation
Isang EU payroll team ang humahawak ng mga file mula sa maraming miyembrong estado. Kung wala ang mga ito, nawawala ang mga pinaka-sensitibong ID sa mga talaang iyon.
Mga National Health ID
Nasaklaw ang UK NHS Number. Ang mga ito ay hindi:
- French NIR (pati na rin isang health ID)
- German Krankenkassennummer
- Italian Codice Fiscale (pati na rin isang health ID)
- Dutch BSN (ginagamit para sa health insurance)
Kailangan ng mga EU health team ng mga ito para sa proteksyon ng data sa antas ng GDPR.
Mga EU Driving License
Ang mga EU driving license ay nahuhulog sa ilalim ng Directive 2006/126/EC. Bawat miyembrong estado ay may sariling format. Ang alphanumeric na estruktura ay naiiba ayon sa bansa. Ang Presidio ay may US-only na mga driver's license recognizer. Wala itong suporta sa EU driving license. Nangangahulugan ito na ang data ng EU driving license ay dumadaan nang hindi natukoy.
Mga VAT Number
Ang mga EU VAT number ay lumalabas sa bawat B2B na kasunduan. Format: 2-titik na country code kasama ang 8-12 digits. Ang Presidio ay walang VAT recognizer. Ang mga VAT number ay naka-link sa mga kumpanya at sa kanilang mga may-ari. Ang mga ito ay personal na data sa ilalim ng GDPR.
Para sa karagdagang impormasyon tungkol sa mga obligasyon ng GDPR, tingnan ang GDPR compliance resources.
Ang Gastos ng Mga Custom Recognizer
Kapag natuklasan ng mga EU team ang agwat, nagtatayo sila ng mga custom recognizer. Ito ay tumatagal ng tunay na oras.
Oras bawat recognizer (magaspang na tantiya):
- Pananaliksik sa format: 1-2 oras
- Pagsulat ng Python class: 2-4 oras
- Pagtatayo ng regex at validation: 2-4 oras
- Pagdaragdag ng mga context word: 1-2 oras
- Pagsulat ng mga pagsubok: 2-3 oras
- Pag-deploy at pagsusuri: 1-2 oras
Iyon ay 9-17 oras bawat recognizer. Mga magaspang na tantiya lamang ang mga ito.
Halimbawa: isang German fintech ang nangangailangan ng apat na recognizer.
IBAN, Steuer-ID, EU driving license, German VAT.
- 4 na recognizer sa 13 oras bawat isa = 52 oras ng trabaho
- Sa €100 bawat oras: humigit-kumulang €5,200
Sinasaklaw lamang nito ang unang pagtatayo. Nagbabago ang mga format sa paglipas ng panahon. Ang mga bagong edge case ay lumalabas. Ang mga update ng Presidio API ay maaaring masira ang mga bagay. Ang bawat pagbabago ay nangangailangan ng isang developer upang suriin at ayusin ito. Nagdaragdag ng gastos ang patuloy na trabaho taon-taon.
Ang Managed Library
Pinalawak ng anonym.legal ang Presidio na may 285+ na uri ng entity. Pinapanatili ng koponan ang library na napapanahon. Ang mga EU identifier ay kasama mula sa unang araw.
Ano ang higit pa sa mga default ng Presidio:
- IBAN sa lahat ng format ng miyembrong estado ng EU
- Mga tax ID ng miyembrong estado: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL, at iba pa
- Mga EU national health ID
- Mga VAT number (format ng EU)
- Mga format ng EU driving license
- Mga format ng European passport
- Mga variant ng entity sa 48 na sinusuportahang wika
Kapag na-update ng Germany ang isang format ng tax ID, ang update ay naipadala kasama ang serbisyo. Walang kailangang pull request mula sa iyong koponan.
Para sa mga ID na hindi nasa library, pinapahintulutan ng custom entity builder na magdagdag ka ng mga pattern. Walang kailangang Python code.
Tingnan ang security and compliance details para sa kung paano gumagana ang mga update at mga audit trail.
Halimbawa ng German Fintech
Isang German fintech ang kailangang makita ang mga IBAN, BIC, Steuer-ID, at Handelsregisternummern sa mga file ng customer.
Rate ng default detection ng Presidio para sa apat na uri na ito: 0%.
Wala sa default na library ang alinman sa mga ito. Hindi ito mahinang precision. Ito ay zero na deteksyon. Hindi sila bahagyang napalampas ng tool. Hindi sila nakikita nito.
Paghahambing ng gastos:
| Paraan | Gastos sa unang taon |
|---|---|
| Mga custom recognizer (4 x 13 oras sa €100/oras) | ~€5,200 kasama ang patuloy na pagpapanatili |
| Managed entity library (Pro plan) | €180/taon, lahat ng apat ay nasaklaw |
Ang agwat ay humigit-kumulang 29x sa unang taon. Sa bawat taon pagkatapos nito, ang custom na pagpapanatili ay nagdaragdag ng mas maraming gastos. Ang presyo ng managed na serbisyo ay nananatiling flat.
Konklusyon
Ang mga default ng Presidio ay mahusay na naglilingkod sa mga US use case. Para sa mga EU deployment sa ilalim ng GDPR, kulang ang mga ito. Ang agwat ay nangangailangan ng alinman sa custom recognizer work o isang managed na serbisyo.
Para sa mga EU team kung saan kinakailangan ang compliance at mahigpit ang oras ng inhinyero, ang isang pre-built na EU entity library ay nag-aalis ng isang proyektong nagtatayo ng 50+ oras. Maaaring maproseso ang mga file mula sa unang araw. Walang kailangang custom code.