जापान PPC और APPI: AI प्रशिक्षण डेटा अनुपालन
जापान का PPC APPI को लागू करता है। 2022 के संशोधनों ने इस कानून को पहले की किसी भी अपडेट से अधिक बदल दिया। इन्होंने स्यूडोनिमाइज़ड रिकॉर्ड, सीमा-पार ट्रांसफर और AI प्रशिक्षण सेट के लिए नियम जोड़े। PPC ने 2024 में 45 फैसले जारी किए। उसी वर्ष इसने जापान-विशिष्ट पहला AI गोपनीयता गाइड भी प्रकाशित किया।
यदि आपकी फर्म जापानी टेक्स्ट पर मॉडल प्रशिक्षित करती है या जापानी उपयोगकर्ता रिकॉर्ड रखती है, तो ये नियम अभी लागू होते हैं।
2022 संशोधनों ने क्या बदला
2.4 मिलियन जापानी फर्मों को गोपनीयता नियमों को अपडेट करना और प्रबंधन चरणों को पुनर्गठित करना पड़ा।
स्यूडोनिमाइज़ड जानकारी (仮名加工情報): एक नई मध्य श्रेणी। इसमें ऐसे व्यक्तिगत रिकॉर्ड शामिल हैं जिनसे प्रत्यक्ष पहचानकर्ता हटा दिए गए हैं। यदि आपके पास की है तो पुनः पहचान अभी भी संभव है। ये रिकॉर्ड पूर्ण सहमति के बिना किसी संगठन के भीतर जा सकते हैं। वे तीसरे पक्षों के पास नहीं जा सकते। GDPR में ऐसी कोई श्रेणी नहीं है।
अनामीकृत जानकारी (匿名加工情報): पुनः पहचान तकनीकी रूप से असंभव होनी चाहिए। एक योग्य तृतीय पक्ष को इसकी पुष्टि करनी होगी। इस बिंदु पर जापान का मानक GDPR से ऊंचा है। GDPR उस समीक्षा को वैकल्पिक बनाता है। APPI इसे अनिवार्य बनाता है।
सीमा-पार ट्रांसफर: अन्य देशों में ट्रांसफर जापान के सुरक्षा मानक को पूरा करना होगा। PPC अनुमोदित देशों की एक सूची रखता है। EU उस सूची में है।
AI प्रशिक्षण सेट: 2024 की PPC गाइडेंस ने इसे सीधे कवर किया।
- प्रशिक्षण सेट पूरी तरह अनामीकृत होने चाहिए या किसी वैध कानूनी आधार पर — आमतौर पर सहमति — आधारित होने चाहिए।
- प्रसंस्करण अपवाद तभी लागू होता है जब मॉडल अपने आउटपुट से लोगों की पहचान नहीं कर सकता।
- वेबसाइटों से स्क्रेप किए गए जापानी रिकॉर्ड पर प्रशिक्षण करने वाले LLM डेवलपर्स को एक वैध संग्रह आधार दिखाना होगा।
सीमा-पार संरेखण कर्तव्यों का पूरा विवरण देखें /legal/compliance पर।
My Number: जापान का राष्ट्रीय ID
My Number (マイナンバー) एक 12-अंकीय राष्ट्रीय ID है। जापान इसे सभी निवासियों को जारी करता है। विदेशी नागरिकों को भी मिलती है। यह प्रणाली 2016 से चल रही है। यह कर, सामाजिक सुरक्षा और आपदा प्रतिक्रिया को कवर करती है।
चेक अंक कैसे काम करता है: My Number Verhoeff विधि का उपयोग करता है। यह एक गणित-आधारित त्रुटि-जांच योजना है। इसे बनाना Luhn से कठिन है — वह विधि जो स्वीडिश personnummer और कनाडाई SIN के लिए उपयोग की जाती है। अधिकांश यूरोपीय ID सरल मॉड्यूलर गणित का उपयोग करते हैं।
पहचान क्यों कठिन है: 12-अंकीय स्ट्रिंग के लिए स्कैन करना सटीक नहीं होगा। तारीखें, पोस्टल कोड और इनवॉइस कोड सभी एक जैसे दिखते हैं। उन्हें सुलझाने के लिए आपको पूरा Verhoeff तर्क चाहिए। सरल regex पर्याप्त नहीं है।
PPC की 2024 समीक्षा में एक स्पष्ट निष्कर्ष था। 63% सामान्य NLP उपकरण जापानी रिकॉर्ड में My Number का पता लगाने में विफल रहते हैं।
देखें कि anonym.legal My Number को कैसे संभालता है /entities पर।
तीन लेखन प्रणालियाँ एक साथ
जापानी एक साथ Hiragana, Katakana और Kanji का उपयोग करता है। कुछ संदर्भों में Roman लिपि भी दिखती है। एक ही नाम अलग-अलग रिकॉर्ड में अलग दिख सकता है। Latin-लिपि टेक्स्ट के लिए बने उपकरण अतिरिक्त समर्थन के बिना जापानी पर विफल होते हैं।
नाम पहचान के लिए इसका क्या मतलब है:
- जापानी NER को जापानी टेक्स्ट पर प्रशिक्षित मॉडल चाहिए। spaCy ja_core_news का उपयोग करें।
- जापानी में शब्दों के बीच कोई स्थान नहीं होता। शब्द विभाजन अपना अलग चरण है। इसे जापान-जागरूक उपकरणों की जरूरत है।
- व्यक्ति के नाम Kanji में Hiragana या Katakana में पढ़ाई-गाइड के साथ आते हैं। उपकरणों को दोनों रूप पकड़ने होंगे।
- कंपनी के नाम (会社名, 株式会社) के लिए जापान-विशिष्ट नियम चाहिए।
APAC भाषाओं में NER के लिए देखें /docs/faq।
अन्य जापानी ID प्रारूप
ड्राइविंग लाइसेंस: जारी क्षेत्र के लिए एक उपसर्ग कोड के साथ 12 अंक। कोड निश्चित हैं — टोक्यो 10 है, ओसाका 62 है। क्षेत्र भाग जांच योग्य है।
पासपोर्ट: जापान-विशिष्ट जारी करने के नियमों के साथ मानक ICAO प्रारूप।
स्वास्थ्य बीमा कार्ड (健康保険証): प्रतीक (記号) और संख्या। प्रारूप बीमाकर्ता के अनुसार भिन्न होता है।
निवास कार्ड (在留カード): विदेशी निवासियों के लिए। प्रारूप: दो अक्षर, आठ अंक, दो अक्षर। न्याय मंत्रालय इन्हें जारी करता है।
जापान-EU डेटा ट्रांसफर स्थिति
जापान और EU के बीच 2019 से पारस्परिक पर्याप्तता है। व्यक्तिगत रिकॉर्ड बिना अतिरिक्त चरणों के EU और जापान के बीच प्रवाहित होते हैं। जापान पूर्ण EU पर्याप्तता वाले बहुत कम गैर-यूरोपीय देशों में से एक है।
यह समझौता मानक व्यक्तिगत रिकॉर्ड को कवर करता है। संवेदनशील स्वास्थ्य और आपराधिक-इतिहास रिकॉर्ड को पर्याप्तता के तहत भी अतिरिक्त सुरक्षा उपायों की आवश्यकता है। इन रिकॉर्डों को स्थानांतरित करने वाली फर्मों को अपने द्वारा उपयोग किए गए अतिरिक्त चरणों को लॉग करना होगा।
अपने ट्रांसफर कर्तव्यों की समीक्षा करें /security-compliance पर।
आपकी जापान अनुपालन चेकलिस्ट
यदि आप जापानी व्यक्तिगत रिकॉर्ड संभालते हैं तो यहाँ से शुरू करें:
- Verhoeff चेक-अंक तर्क के साथ My Number पहचान।
- जापानी-लिपि टेक्स्ट पर प्रशिक्षित मॉडल के साथ जापानी NER — Latin-लिपि मॉडल नहीं।
- Kanji, Hiragana और Katakana नाम रूपों के साथ पठन-गाइड वेरिएंट के लिए समर्थन।
- क्षेत्र कोड जांच के साथ ड्राइविंग लाइसेंस पहचान।
- MOJ प्रारूप तर्क के साथ निवास कार्ड पहचान।
- बीमाकर्ता वेरिएंट में स्वास्थ्य बीमा कार्ड पहचान।
- व्यक्तिगत रिकॉर्ड रखने वाले प्रत्येक AI प्रशिक्षण सेट के लिए वैध कानूनी आधार।
- APPI के तहत अनामीकृत वर्गीकृत किसी भी रिकॉर्ड के लिए तृतीय-पक्ष समीक्षा।
- EU-Japan पर्याप्तता समझौते के तहत स्थानांतरित होने वाले संवेदनशील रिकॉर्ड के लिए अतिरिक्त सुरक्षा उपाय।
इस गाइड में उपयोग की गई APPI शर्तों की परिभाषाओं के लिए देखें /docs/glossary।