जापान My Number: APPI और Verhoeff चेक

जापान के Personal Information Protection Commission (PPC) ने 2024 में 45 प्रवर्तन निर्णय जारी किए। इसने जापान की पहली AI गोपनीयता मार्गदर्शिका भी प्रकाशित की। एक PPC अध्ययन में पाया गया कि 63% सामान्य NLP टूल्स जापानी फाइलों में My Number का पता लगाने में विफल रहते हैं। यदि आपकी टीम जापानी निवासियों के डेटा को संभालती है, तो यह अंतर सीधे APPI जोखिम का मतलब है।

My Number क्या है

जापान प्रत्येक निवासी को एक अद्वितीय 12-अंकीय पहचानकर्ता देता है। यह My Number है, जो Individual Number System का हिस्सा है। यह कर, पेंशन, स्वास्थ्य बीमा और आपदा प्रतिक्रिया को कवर करता है। यह पहचानकर्ता APPI के तहत संवेदनशील डेटा है। इसे एकत्र करने या साझा करने के लिए आपको कानूनी कारण चाहिए।

Verhoeff चेक की समस्या

My Number अपने चेक अंक के लिए Verhoeff एल्गोरिदम का उपयोग करता है। Verhoeff एक गणितीय पद्धति है जो सभी एकल-अंक त्रुटियों को पकड़ती है। यह उन सभी त्रुटियों को भी पकड़ती है जहां दो आसन्न अंक अदला-बदली करते हैं। इसे काम करने के लिए तीन लुकअप टेबल की आवश्यकता होती है। आप इसे हाथ से गणना नहीं कर सकते। इसके लिए कोड की आवश्यकता है।

यह दो कारणों से महत्वपूर्ण है। पहला, जापान का 12-अंकीय प्रारूप कई अन्य कोड जैसा दिखता है। इनवॉइस संदर्भ, दस्तावेज़ IDs और दिनांक स्ट्रिंग सभी एक ही प्रारूप साझा करते हैं। Verhoeff चेक के बिना, एक टूल गलत मानों को फ्लैग करेगा। दूसरा, अधिकांश टूल्स Verhoeff का उपयोग नहीं करते। वे सरल modulo-10 या modulo-11 चेक का उपयोग करते हैं। वे यहां काम नहीं करते।

PPC अध्ययन में पाया गया कि 63% टूल्स या तो चेक छोड़ देते हैं या सरल पद्धति का उपयोग करते हैं। दोनों समस्याएं एक साथ होती हैं: गलत सकारात्मक और गलत नकारात्मक।

Luhn एल्गोरिदम, जिसका उपयोग क्रेडिट कार्ड के लिए होता है, सरल है। My Number Luhn का उपयोग नहीं करता। Luhn के लिए बने टूल्स यहां काम नहीं करेंगे।

तीन लिपियाँ, एक नाम

जापानी पाठ एक साथ तीन लेखन प्रणालियों का उपयोग करता है। एक टूल को तीनों को संभालना होगा।

Hiragana: व्याकरण और देशी शब्दों के लिए उपयोग किया जाता है। 46 आधार वर्ण।

Katakana: विदेशी शब्दों और नामों के लिए उपयोग किया जाता है। 46 आधार वर्ण। जापान में विदेशी नाम इस लिपि में दिखते हैं।

Kanji: संज्ञाओं और नामों के लिए प्रतीक। लगभग 2,000 सामान्य उपयोग में हैं।

एक व्यक्ति का नाम चार रूपों में दिख सकता है: Kanji, Hiragana, Katakana और Romaji। एक टूल को सभी चार से मिलान करना होगा। यदि यह एक को छोड़ देता है, तो वह उस व्यक्ति के अधिकांश रिकॉर्ड को छोड़ देता है।

अन्य जापानी IDs की पहचान

ड्राइविंग लाइसेंस: 12 अंक। पहले दो अंक प्रिफेक्चर दिखाते हैं। टोक्यो 10 है। ओसाका 62 है। यह एक टूल को जांचने देता है कि मान उस क्षेत्र के लिए वैध है या नहीं।

पासपोर्ट: दो अक्षर और सात अंक। ICAO प्रारूप। जापान विशिष्ट अक्षर जोड़े का उपयोग करता है।

स्वास्थ्य बीमा कार्ड: एक प्रतीक और एक संख्या। प्रारूप बीमाकर्ता पर निर्भर करता है। National Health Insurance और Society-Managed Insurance अलग-अलग प्रारूप का उपयोग करते हैं।

निवास कार्ड: विदेशी निवासियों के लिए। दो अक्षर, आठ अंक, दो अक्षर। Justice Ministry यह कार्ड जारी करता है।

APPI का अनामीकरण नियम

APPI में एक सख्त अनामीकृत डेटा मानक है। यह एक प्रमुख क्षेत्र में GDPR से आगे जाता है। अनामीकरण तृतीय-पक्ष सत्यापन योग्य और तकनीकी रूप से अपरिवर्तनीय होना चाहिए।

पालन करने के लिए, एक संगठन को:

My Number सहित सभी प्रत्यक्ष पहचानकर्ताओं को हटाना होगा।
सभी quasi-identifier संयोजनों को संभालना होगा।
k-anonymity या किसी समान पद्धति का उपयोग करना होगा।
उठाए गए कदमों का एक सामान्य विवरण प्रकाशित करना होगा।
कभी भी डेटा को पुनः पहचानने की कोशिश नहीं करनी चाहिए।

PPC की 2024 AI मार्गदर्शिका एक विशिष्ट नियम जोड़ती है। यदि आप अनामीकृत डेटा पर AI को प्रशिक्षित करते हैं, तो आप उस मॉडल का उपयोग लोगों को पुनः पहचानने के लिए नहीं कर सकते। यह APPI प्रशिक्षण सेट के विरुद्ध model inversion attacks पर सीधा प्रतिबंध है।

PPC मानकों को पूरा करने के लिए, आपको चार चीजों की आवश्यकता है। पहला, My Number पहचान के लिए Verhoeff सत्यापन। दूसरा, उचित tokenization के साथ ja_core_news का उपयोग करके जापानी NER। तीसरा, Kanji, Kana और Romaji में नाम मिलान। चौथा, ड्राइविंग लाइसेंस के लिए प्रिफेक्चर कोड चेक।

भारत Aadhaar का उपयोग करता है, जिसके लिए Verhoeff सत्यापन भी आवश्यक है। India DPDPA technical compliance guide उसे विस्तार से कवर करती है। बहु-देश पहचानकर्ता पहचान के लिए, EU national tax ID detection under GDPR देखें।

स्रोत

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

जापान My Number: Verhoeff एल्गोरिदम और APPI

जापान My Number: APPI और Verhoeff चेक

My Number क्या है

Verhoeff चेक की समस्या

तीन लिपियाँ, एक नाम

अन्य जापानी IDs की पहचान

APPI का अनामीकरण नियम

स्रोत

संबंधित लेख

Self-Hosted PII Compliance Audits में विफल होता है

Presidio 220+ GDPR संस्थाओं को चूक जाता है

कॉन्फ़िगरेशन ड्रिफ्ट: एक छिपा GDPR जोखिम

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

जापान My Number: Verhoeff एल्गोरिदम और APPI

जापान My Number: APPI और Verhoeff चेक

My Number क्या है

Verhoeff चेक की समस्या

तीन लिपियाँ, एक नाम

अन्य जापानी IDs की पहचान

APPI का अनामीकरण नियम

स्रोत

संबंधित लेख

Self-Hosted PII Compliance Audits में विफल होता है

Presidio 220+ GDPR संस्थाओं को चूक जाता है

कॉन्फ़िगरेशन ड्रिफ्ट: एक छिपा GDPR जोखिम

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow