Presidio 220+ GDPR संस्थाओं को चूक जाता है: EU कवरेज का अंतराल
2026 के लिए अपडेट किया गया
Microsoft Presidio लगभग 40 डिफ़ॉल्ट entity recognizers के साथ आता है। US deployments के लिए, यह काम करता है। यह SSNs, US passports, driver's licenses, credit cards, और emails को कवर करता है।
EU deployments के लिए, अंतराल बड़ा है। GDPR सभी EU व्यक्तिगत डेटा को कवर करता है। यह डेटा विषय की राष्ट्रीयता की परवाह किए बिना लागू होता है। EU teams को ऐसे recognizers चाहिए जो Presidio के साथ नहीं आते।
Presidio में क्या शामिल है
Presidio के defaults चार समूहों में आते हैं।
US-centric IDs:
- US Social Security Number (SSN)
- US Passport Number
- US Driver's License Number
- US Bank Account Number
- US ITIN
- US Medical License Number
Universal IDs:
- Email Address
- Phone Number
- IP Address
- Credit Card Number
- Crypto Wallet Address
- URL
Text entities (NER-based):
- PERSON
- LOCATION
- ORGANIZATION
- DATE_TIME
सीमित अंतर्राष्ट्रीय:
- UK NHS Number
- UK National Insurance Number (NINO)
- कुछ वित्तीय पहचानकर्ता
कुल: लगभग 40 recognizers।
EU Teams को क्या चाहिए
वित्तीय IDs
IBAN अधिकांश EU व्यावसायिक फ़ाइलों में दिखाई देता है। यह payments, invoices, और payroll में आता है। IBAN ISO 13616 का पालन करता है। Presidio में कोई IBAN recognizer नहीं है।
एक German fintech लें। हर payment file में एक IBAN होता है। IBAN detection के बिना, टूल केवल credit card numbers खोजता है। मुख्य EU payment ID छूट जाती है। इसका अर्थ है GDPR-कवर्ड डेटा का एक प्रमुख टुकड़ा कभी नहीं मिलता।
National Tax IDs
इनमें से कोई भी Presidio के defaults में नहीं है:
- German Steueridentifikationsnummer: 11 अंक
- French NIR: checksum key के साथ 15 अंक
- Italian Codice Fiscale: checksum के साथ 16 characters
- Spanish NIF/NIE: एक letter के साथ 9 characters
- Dutch BSN: elfproef validation के साथ 9 अंक
EU payroll टीम कई member states की फ़ाइलों को संभालती है। इनके बिना, यह उन रिकॉर्ड में सबसे संवेदनशील IDs को चूक जाती है।
National Health IDs
UK NHS Number कवर है। ये नहीं हैं:
- French NIR (एक health ID भी)
- German Krankenkassennummer
- Italian Codice Fiscale (एक health ID भी)
- Dutch BSN (health insurance के लिए उपयोग किया जाता है)
EU health teams को GDPR-स्तर के data protection के लिए इनकी आवश्यकता है।
EU Driving Licenses
EU driving licenses Directive 2006/126/EC के अंतर्गत आते हैं। प्रत्येक member state का अपना प्रारूप है। alphanumeric संरचना देश के अनुसार भिन्न होती है। Presidio में US-only driver's license recognizers हैं। इसमें कोई EU driving license support नहीं है। इसका अर्थ है EU driving license डेटा बिना पहचाने गुजरता है।
VAT Numbers
EU VAT numbers हर B2B deal में दिखाई देते हैं। प्रारूप: 2-letter country code plus 8–12 अंक। Presidio में कोई VAT recognizer नहीं है। VAT numbers कंपनियों और उनके मालिकों से जुड़ते हैं। वे GDPR के तहत personal data हैं।
GDPR obligations के बारे में अधिक जानकारी के लिए, GDPR compliance resources देखें।
Custom Recognizers की लागत
जब EU teams अंतराल ढूंढती हैं, तो वे custom recognizers बनाती हैं। इसमें वास्तविक समय लगता है।
प्रति recognizer समय (अनुमानित):
- प्रारूप पर शोध: 1–2 घंटे
- Python class लिखना: 2–4 घंटे
- Regex और validation बनाना: 2–4 घंटे
- Context words जोड़ना: 1–2 घंटे
- परीक्षण लिखना: 2–3 घंटे
- Deploy करना और जांचना: 1–2 घंटे
यह प्रति recognizer 9–17 घंटे है। ये केवल अनुमान हैं।
उदाहरण: एक German fintech को चार recognizers चाहिए।
IBAN, Steuer-ID, EU driving license, German VAT।
- 4 recognizers × 13 घंटे प्रत्येक = 52 घंटे काम
- €100 प्रति घंटे पर: लगभग €5,200
यह केवल पहला बिल्ड है। प्रारूप समय के साथ बदलते हैं। नए edge cases सामने आते हैं। Presidio API updates चीजें तोड़ सकते हैं। प्रत्येक बदलाव को समीक्षा और सुधार के लिए एक developer की आवश्यकता है। चल रहा काम साल-दर-साल लागत जोड़ता है।
Managed Library
anonym.legal Presidio को 285+ entity types के साथ extend करता है। टीम library को अप-टू-डेट रखती है। EU पहचानकर्ता पहले दिन से शामिल हैं।
Presidio defaults से परे क्या जाता है:
- सभी EU member state formats में IBAN
- Member state tax IDs: Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL, और अधिक
- EU national health IDs
- VAT numbers (EU format)
- EU driving license formats
- European passport formats
- 48 समर्थित भाषाओं में entity variants
जब Germany tax ID format अपडेट करता है, तो अपडेट service के साथ ship होता है। आपकी टीम से कोई pull request आवश्यक नहीं।
Library में नहीं आने वाले IDs के लिए, custom entity builder आपको patterns जोड़ने देता है। कोई Python code आवश्यक नहीं।
Updates और audit trails कैसे काम करते हैं, इसके लिए security and compliance details देखें।
German Fintech उदाहरण
एक German fintech को ग्राहक फ़ाइलों में IBANs, BICs, Steuer-IDs, और Handelsregisternummern का पता लगाना है।
इन चार types के लिए Presidio default detection rate: 0%।
इनमें से कोई भी default library में नहीं है। यह खराब precision नहीं है। यह शून्य detection है। टूल उन्हें आंशिक रूप से नहीं चूकता। यह उन्हें बिल्कुल नहीं देखता।
लागत तुलना:
| दृष्टिकोण | पहले वर्ष की लागत |
|---|---|
| Custom recognizers (4 × 13 hrs at €100/hr) | ~€5,200 plus ongoing upkeep |
| Managed entity library (Pro plan) | €180/वर्ष, सभी चार कवर |
पहले वर्ष में अंतर लगभग 29x है। उसके बाद हर साल, custom upkeep अधिक लागत जोड़ता है। Managed service की कीमत स्थिर रहती है।
निष्कर्ष
Presidio के defaults US use cases को अच्छी तरह serve करते हैं। GDPR के तहत EU deployments के लिए, वे कम पड़ते हैं। अंतराल के लिए या तो custom recognizer काम या एक managed service आवश्यक है।
EU teams के लिए जहाँ compliance आवश्यक है और engineering समय सीमित है, एक pre-built EU entity library 50+ घंटे के build project को हटाती है। पहले दिन से files process की जा सकती हैं। पहले कोई custom code आवश्यक नहीं।