जापान My Number: APPI और Verhoeff चेक
जापान के Personal Information Protection Commission (PPC) ने 2024 में 45 प्रवर्तन निर्णय जारी किए। इसने जापान की पहली AI गोपनीयता मार्गदर्शिका भी प्रकाशित की। एक PPC अध्ययन में पाया गया कि 63% सामान्य NLP टूल्स जापानी फाइलों में My Number का पता लगाने में विफल रहते हैं। यदि आपकी टीम जापानी निवासियों के डेटा को संभालती है, तो यह अंतर सीधे APPI जोखिम का मतलब है।
My Number क्या है
जापान प्रत्येक निवासी को एक अद्वितीय 12-अंकीय पहचानकर्ता देता है। यह My Number है, जो Individual Number System का हिस्सा है। यह कर, पेंशन, स्वास्थ्य बीमा और आपदा प्रतिक्रिया को कवर करता है। यह पहचानकर्ता APPI के तहत संवेदनशील डेटा है। इसे एकत्र करने या साझा करने के लिए आपको कानूनी कारण चाहिए।
Verhoeff चेक की समस्या
My Number अपने चेक अंक के लिए Verhoeff एल्गोरिदम का उपयोग करता है। Verhoeff एक गणितीय पद्धति है जो सभी एकल-अंक त्रुटियों को पकड़ती है। यह उन सभी त्रुटियों को भी पकड़ती है जहां दो आसन्न अंक अदला-बदली करते हैं। इसे काम करने के लिए तीन लुकअप टेबल की आवश्यकता होती है। आप इसे हाथ से गणना नहीं कर सकते। इसके लिए कोड की आवश्यकता है।
यह दो कारणों से महत्वपूर्ण है। पहला, जापान का 12-अंकीय प्रारूप कई अन्य कोड जैसा दिखता है। इनवॉइस संदर्भ, दस्तावेज़ IDs और दिनांक स्ट्रिंग सभी एक ही प्रारूप साझा करते हैं। Verhoeff चेक के बिना, एक टूल गलत मानों को फ्लैग करेगा। दूसरा, अधिकांश टूल्स Verhoeff का उपयोग नहीं करते। वे सरल modulo-10 या modulo-11 चेक का उपयोग करते हैं। वे यहां काम नहीं करते।
PPC अध्ययन में पाया गया कि 63% टूल्स या तो चेक छोड़ देते हैं या सरल पद्धति का उपयोग करते हैं। दोनों समस्याएं एक साथ होती हैं: गलत सकारात्मक और गलत नकारात्मक।
Luhn एल्गोरिदम, जिसका उपयोग क्रेडिट कार्ड के लिए होता है, सरल है। My Number Luhn का उपयोग नहीं करता। Luhn के लिए बने टूल्स यहां काम नहीं करेंगे।
तीन लिपियाँ, एक नाम
जापानी पाठ एक साथ तीन लेखन प्रणालियों का उपयोग करता है। एक टूल को तीनों को संभालना होगा।
Hiragana: व्याकरण और देशी शब्दों के लिए उपयोग किया जाता है। 46 आधार वर्ण।
Katakana: विदेशी शब्दों और नामों के लिए उपयोग किया जाता है। 46 आधार वर्ण। जापान में विदेशी नाम इस लिपि में दिखते हैं।
Kanji: संज्ञाओं और नामों के लिए प्रतीक। लगभग 2,000 सामान्य उपयोग में हैं।
एक व्यक्ति का नाम चार रूपों में दिख सकता है: Kanji, Hiragana, Katakana और Romaji। एक टूल को सभी चार से मिलान करना होगा। यदि यह एक को छोड़ देता है, तो वह उस व्यक्ति के अधिकांश रिकॉर्ड को छोड़ देता है।
अन्य जापानी IDs की पहचान
ड्राइविंग लाइसेंस: 12 अंक। पहले दो अंक प्रिफेक्चर दिखाते हैं। टोक्यो 10 है। ओसाका 62 है। यह एक टूल को जांचने देता है कि मान उस क्षेत्र के लिए वैध है या नहीं।
पासपोर्ट: दो अक्षर और सात अंक। ICAO प्रारूप। जापान विशिष्ट अक्षर जोड़े का उपयोग करता है।
स्वास्थ्य बीमा कार्ड: एक प्रतीक और एक संख्या। प्रारूप बीमाकर्ता पर निर्भर करता है। National Health Insurance और Society-Managed Insurance अलग-अलग प्रारूप का उपयोग करते हैं।
निवास कार्ड: विदेशी निवासियों के लिए। दो अक्षर, आठ अंक, दो अक्षर। Justice Ministry यह कार्ड जारी करता है।
APPI का अनामीकरण नियम
APPI में एक सख्त अनामीकृत डेटा मानक है। यह एक प्रमुख क्षेत्र में GDPR से आगे जाता है। अनामीकरण तृतीय-पक्ष सत्यापन योग्य और तकनीकी रूप से अपरिवर्तनीय होना चाहिए।
पालन करने के लिए, एक संगठन को:
- My Number सहित सभी प्रत्यक्ष पहचानकर्ताओं को हटाना होगा।
- सभी quasi-identifier संयोजनों को संभालना होगा।
- k-anonymity या किसी समान पद्धति का उपयोग करना होगा।
- उठाए गए कदमों का एक सामान्य विवरण प्रकाशित करना होगा।
- कभी भी डेटा को पुनः पहचानने की कोशिश नहीं करनी चाहिए।
PPC की 2024 AI मार्गदर्शिका एक विशिष्ट नियम जोड़ती है। यदि आप अनामीकृत डेटा पर AI को प्रशिक्षित करते हैं, तो आप उस मॉडल का उपयोग लोगों को पुनः पहचानने के लिए नहीं कर सकते। यह APPI प्रशिक्षण सेट के विरुद्ध model inversion attacks पर सीधा प्रतिबंध है।
PPC मानकों को पूरा करने के लिए, आपको चार चीजों की आवश्यकता है। पहला, My Number पहचान के लिए Verhoeff सत्यापन। दूसरा, उचित tokenization के साथ ja_core_news का उपयोग करके जापानी NER। तीसरा, Kanji, Kana और Romaji में नाम मिलान। चौथा, ड्राइविंग लाइसेंस के लिए प्रिफेक्चर कोड चेक।
भारत Aadhaar का उपयोग करता है, जिसके लिए Verhoeff सत्यापन भी आवश्यक है। India DPDPA technical compliance guide उसे विस्तार से कवर करती है। बहु-देश पहचानकर्ता पहचान के लिए, EU national tax ID detection under GDPR देखें।