جاپان My Number: APPI اور Verhoeff چیک
جاپان کے پرسنل انفارمیشن پروٹیکشن کمیشن (PPC) نے 2024 میں 45 نافذ العمل فیصلے جاری کیے۔ اس نے جاپان کی پہلی AI پرائیویسی گائیڈنس بھی شائع کی۔ PPC مطالعے میں پایا گیا کہ 63% عام NLP ٹولز جاپانی فائلوں میں My Number (マイナンバー) کی شناخت میں ناکام رہتے ہیں۔ اگر آپ کی ٹیم جاپانی رہائشیوں کا ڈیٹا سنبھالتی ہے تو یہ فرق براہ راست APPI خطرے کا مطلب ہے۔
My Number کیا ہے
جاپان ہر رہائشی کو ایک منفرد 12 ہندسوں کی شناخت دیتا ہے۔ یہ My Number ہے، جو انفرادی نمبر نظام (マイナンバー制度) کا حصہ ہے۔ یہ ٹیکس، پنشن، صحت انشورنس، اور آفت ردعمل کو کور کرتا ہے۔ یہ شناخت APPI کے تحت حساس ڈیٹا ہے۔ اسے اکٹھا یا شیئر کرنے کے لیے قانونی وجہ ضروری ہے۔
Verhoeff چیک کا مسئلہ
My Number اپنے چیک ہندسے کے لیے Verhoeff الگورتھم استعمال کرتا ہے۔ Verhoeff ایک ریاضیاتی طریقہ ہے جو تمام واحد ہندسے کی غلطیاں پکڑتا ہے۔ یہ دو ملحقہ ہندسوں کی تبدیلی کی تمام غلطیاں بھی پکڑتا ہے۔ اسے کام کرنے کے لیے تین lookup ٹیبل کی ضرورت ہے۔ آپ اسے ہاتھ سے حساب نہیں کر سکتے۔ اس کے لیے کوڈ ضروری ہے۔
یہ دو وجوہات سے اہم ہے۔ پہلی، جاپان کا 12 ہندسوں کا فارمیٹ بہت سے دیگر کوڈز جیسا دکھتا ہے۔ انوائس ریفرنسز، دستاویز IDs، اور تاریخ کی سٹرنگز سبھی ایک ہی فارمیٹ شیئر کرتے ہیں۔ Verhoeff چیک کے بغیر، ایک ٹول غلط اقدار کو فلیگ کرے گا۔ دوسری، زیادہ تر ٹولز Verhoeff استعمال نہیں کرتے۔ وہ آسان modulo-10 یا modulo-11 چیکس استعمال کرتے ہیں۔ وہ یہاں کام نہیں کرتے۔
PPC مطالعے میں پایا گیا کہ 63% ٹولز یا تو چیک کو چھوڑ دیتے ہیں یا آسان طریقہ استعمال کرتے ہیں۔ دونوں مسائل ایک ساتھ ہوتے ہیں: غلط مثبت اور غلط منفی۔
Luhn الگورتھم، جو کریڈٹ کارڈز کے لیے استعمال ہوتا ہے، آسان ہے۔ My Number Luhn استعمال نہیں کرتا۔ Luhn کے لیے بنے ٹولز یہاں کام نہیں کریں گے۔
تین اسکرپٹس، ایک نام
جاپانی متن بیک وقت تین تحریری نظام استعمال کرتا ہے۔ ایک ٹول کو تینوں کو سنبھالنا ہوگا۔
Hiragana (ひらがな): گرامر اور مقامی الفاظ کے لیے استعمال ہوتا ہے۔ 46 بنیادی حروف۔
Katakana (カタカナ): غیر ملکی الفاظ اور ناموں کے لیے استعمال ہوتا ہے۔ 46 بنیادی حروف۔ جاپان میں غیر ملکی نام اس اسکرپٹ میں ظاہر ہوتے ہیں۔
Kanji (漢字): اسم اور ناموں کے لیے علامات۔ عام استعمال میں تقریباً 2,000 ہیں۔
ایک شخص کا نام چار شکلوں میں ظاہر ہو سکتا ہے: Kanji (田中太郎)، Hiragana (たなかたろう)، Katakana (タナカ タロウ)، اور Romaji (Tanaka Taro)۔ ایک ٹول کو چاروں سے ملانا ہوگا۔ اگر یہ ایک سے چوک جائے، تو اس شخص کے زیادہ تر ریکارڈ چھوٹ جاتے ہیں۔
دیگر جاپانی IDs کی شناخت
ڈرائیور لائسنس (運転免許証番号): 12 ہندسے۔ پہلے دو ہندسے صوبہ دکھاتے ہیں۔ ٹوکیو 10 ہے۔ اوساکا 62 ہے۔ یہ ٹول کو یہ چیک کرنے دیتا ہے کہ آیا قدر اس علاقے کے لیے درست ہے۔
پاسپورٹ (旅券番号): دو حروف اور سات ہندسے۔ ICAO فارمیٹ۔ جاپان مخصوص حرف جوڑے استعمال کرتا ہے۔
صحت انشورنس کارڈ (健康保険証記号番号): ایک علامت اور ایک نمبر۔ فارمیٹ انشورر پر منحصر ہے۔ نیشنل ہیلتھ انشورنس (国民健康保険) اور سوسائٹی مینیجڈ انشورنس (協会けんぽ) مختلف فارمیٹ استعمال کرتے ہیں۔
رہائش کارڈ (在留カード番号): غیر ملکی رہائشیوں کے لیے۔ دو حروف، آٹھ ہندسے، دو حروف۔ وزارت انصاف یہ کارڈ جاری کرتی ہے۔
APPI کا گمنامی کا اصول
APPI میں گمنام ڈیٹا کا ایک سخت معیار ہے جسے anonymized information (匿名加工情報) کہتے ہیں۔ یہ ایک اہم شعبے میں GDPR سے آگے جاتا ہے۔ گمنامی تیسرے فریق کی طرف سے قابل تصدیق اور تکنیکی طور پر ناقابل واپسی ہونی چاہیے۔
تعمیل کے لیے ایک تنظیم کو:
- تمام براہ راست شناخت کنندگان، بشمول My Number، ہٹانے ہوں گے۔
- تمام quasi-identifier مجموعوں کو سنبھالنا ہوگا۔
- k-anonymity یا اسی طرح کا طریقہ استعمال کرنا ہوگا۔
- کیے گئے اقدامات کی عمومی تفصیل شائع کرنی ہوگی۔
- ڈیٹا کی دوبارہ شناخت کبھی نہیں کرنی ہوگی۔
PPC کی 2024 AI گائیڈنس ایک مخصوص اصول شامل کرتی ہے۔ اگر آپ گمنام ڈیٹا پر AI تربیت دیتے ہیں، تو آپ اس ماڈل کو لوگوں کی دوبارہ شناخت کے لیے استعمال نہیں کر سکتے۔ یہ APPI تربیتی سیٹوں کے خلاف ماڈل inversion حملوں پر براہ راست پابندی ہے۔
PPC معیارات پورے کرنے کے لیے آپ کو چار چیزیں چاہئیں۔ پہلی، My Number شناخت کے لیے Verhoeff validation۔ دوسری، مناسب tokenization کے ساتھ ja_core_news استعمال کرتے ہوئے جاپانی NER۔ تیسری، Kanji، Kana، اور Romaji میں نام ملانا۔ چوتھی، ڈرائیور لائسنسز کے لیے صوبے کے کوڈ چیکس۔
ہندوستان Aadhaar استعمال کرتا ہے، جس کے لیے Verhoeff validation بھی ضروری ہے۔ India DPDPA technical compliance guide اسے تفصیل سے کور کرتی ہے۔ کثیر ملکی شناخت شناخت کے لیے، EU national tax ID detection under GDPR دیکھیں۔