वैश्विक PII: SSN, CPF, आधार और बहुत कुछ
US-केंद्रित PII टूल की समस्या
अधिकांश PII टूल संयुक्त राज्य अमेरिका में बनाए गए थे। वे US डेटा फॉर्मेट पर केंद्रित हैं। Social Security Number में AAA-BB-CCCC फॉर्मेट में नौ अंक होते हैं। इसके area, group और serial segments दस्तावेज़ीकृत नियमों का पालन करते हैं। US-केंद्रित टूल इसे अच्छी तरह पकड़ लेते हैं। वे US फ़ोन नंबर, ईमेल पते और driver's licenses भी detect करते हैं। वे US के बाहर इस्तेमाल होने वाली हर राष्ट्रीय ID से चूक जाते हैं।
GDPR केवल US की छूट की अनुमति नहीं देता। जर्मन Steuer-ID लें। यह 11-अंकीय कर ID है। Bundeszentralamt für Steuern इसे जारी करता है। इसका अंतिम अंक एक checksum है। यह एक जर्मन निवासी की पहचान उसी तरह करता है जैसे SSN एक अमेरिकी की करता है। GDPR Article 4 "किसी पहचाने गए या पहचाने जाने योग्य प्राकृतिक व्यक्ति से संबंधित किसी भी जानकारी" को कवर करता है। Steuer-ID उस परिभाषा में फिट बैठती है। यह व्यक्तिगत डेटा है। यह सच है चाहे आपका टूल इस फॉर्मेट को जाने या नहीं।
GDPR जुर्माने US-only टूल उपयोग करने वाले सिस्टम में EU-specific PII exposure का अनुसरण करते रहे हैं। अनुपालन अंतर वास्तविक है। Enforcement कार्रवाइयाँ हुई हैं। संदर्भ के लिए हमारी GDPR अनुपालन गाइड देखें।
यूरोपीय identifier परिदृश्य
कवरेज अंतर बड़ा है। यहाँ देश-दर-देश विवरण है।
जर्मनी: Steuer-ID — 11 अंक, checksum-validated। Sozialversicherungsnummer — 12 fields, structured। Reisepass — authority codes के साथ 10 characters।
फ्रांस: NIR राष्ट्रीय social security ID है। इसमें 15 अंक हैं। वे लिंग, जन्म वर्ष, जन्म माह, department, commune और check key encode करते हैं। SIRET में 14 अंक हैं। SIREN में नौ हैं।
स्वीडन: Personnummer YYMMDD-XXXX फॉर्मेट का उपयोग करता है। Samordningsnummer गैर-निवासियों को cover करता है। Day value 60 से offset होती है।
नॉर्वे: Fødselsnummer में DDMMYYNNNKK फॉर्मेट में 11 मान हैं। लिंग मध्य group में encoded है। D-nummer day value को 40 से offset करता है।
ब्राज़ील: CPF — Cadastro de Pessoas Físicas — में दो check values के साथ 11 अंक हैं। CNPJ 14-संख्या का व्यावसायिक ID है।
भारत: आधार एक Verhoeff check के साथ 12-अंकीय biometric ID है। PAN अक्षरों और संख्याओं वाली 10-अंकीय कर ID है।
UAE: Emirates ID में 784-जन्म वर्ष-sequence-check फॉर्मेट में 15 संख्याएँ हैं।
12 देशों को cover करने वाली एक वैश्विक HR टीम को एक टूल चाहिए। उसे एक ही pass में सभी 12 राष्ट्रीय ID फॉर्मेट handle करने होंगे। प्रति देश अलग regex libraries बनाए रखना व्यावहारिक नहीं है।
285+ Entity Type Architecture
285+ entity type library सभी EU सदस्य राज्य फॉर्मेट को cover करती है। यह प्रमुख APAC IDs को भी cover करती है। इनमें आधार, PAN, CPF, CNPJ, Emirates ID और Thai citizen ID शामिल हैं। US फॉर्मेट — SSN, EIN, state driver's licenses — भी शामिल हैं। एक engine सभी को handle करता है। Library फॉर्मेट बदलने पर अपडेट होती है।
यही वह अंतर है जो अधिकांश टूल खुला छोड़ देते हैं। क्या cover है इसकी समीक्षा के लिए entities reference देखें। Volume के हिसाब से API pricing के लिए pricing देखें।