My Number ژاپن: APPI و بررسی Verhoeff
کمیسیون حفاظت از اطلاعات شخصی ژاپن (PPC) در سال ۲۰۲۴ معادل ۴۵ تصمیم اجرایی صادر کرد. همچنین اولین راهنمای حریم خصوصی هوش مصنوعی ژاپن را منتشر کرد. یک مطالعه PPC نشان داد که ۶۳٪ از ابزارهای NLP عمومی در شناسایی My Number (マイナンバー) در فایلهای ژاپنی شکست میخورند. اگر تیم شما دادههای ساکنان ژاپن را پردازش میکند، این شکاف به معنای خطر مستقیم APPI است.
My Number چیست
ژاپن به هر ساکنی یک شناسه ۱۲ رقمی منحصربهفرد میدهد. این My Number است، بخشی از سیستم شماره فردی (マイナンバー制度). این سیستم مالیات، بازنشستگی، بیمه درمانی و واکنش به بلایا را پوشش میدهد. این شناسه تحت APPI داده حساس محسوب میشود. برای جمعآوری یا اشتراکگذاری آن نیاز به دلیل قانونی دارید.
مشکل بررسی Verhoeff
My Number از الگوریتم Verhoeff برای رقم کنترلی خود استفاده میکند. Verhoeff یک روش ریاضی است که تمام خطاهای تک رقمی را شناسایی میکند. همچنین تمام خطاهایی که دو رقم مجاور جابجا میشوند را شناسایی میکند. برای کار کردن به سه جدول جستجو نیاز دارد. نمیتوان آن را با دست محاسبه کرد. نیاز به کد دارد.
این از دو جهت اهمیت دارد. اول، فرمت ۱۲ رقمی ژاپن شبیه بسیاری از کدهای دیگر است. مراجع فاکتور، شناسههای سند و رشتههای تاریخ همه همین فرمت را دارند. بدون بررسی Verhoeff، یک ابزار مقادیر اشتباه را علامتگذاری میکند. دوم، اکثر ابزارها از Verhoeff استفاده نمیکنند. آنها از بررسیهای سادهتر modulo-10 یا modulo-11 استفاده میکنند. این روشها اینجا کار نمیکنند.
مطالعه PPC نشان داد که ۶۳٪ از ابزارها یا بررسی را نادیده میگیرند یا از روش سادهتری استفاده میکنند. هر دو مشکل به طور همزمان رخ میدهند: مثبت کاذب و منفی کاذب.
الگوریتم Luhn که برای کارتهای اعتباری استفاده میشود سادهتر است. My Number از Luhn استفاده نمیکند. ابزارهایی که برای Luhn ساخته شدهاند کار نخواهند کرد.
سه خط نوشتار، یک نام
متن ژاپنی به طور همزمان از سه سیستم نوشتاری استفاده میکند. یک ابزار باید هر سه را پردازش کند.
هیراگانا (ひらがな): برای دستور زبان و کلمات بومی استفاده میشود. ۴۶ کاراکتر پایه.
کاتاکانا (カタカナ): برای کلمات و اسامی خارجی استفاده میشود. ۴۶ کاراکتر پایه. اسامی خارجی در ژاپن به این خط نوشته میشوند.
کانجی (漢字): نمادهایی برای اسامی و نامها. حدود ۲۰۰۰ کاراکتر در استفاده رایج هستند.
نام یک نفر میتواند به چهار شکل ظاهر شود: کانجی (田中太郎)، هیراگانا (たなかたろう)، کاتاکانا (タナカ タロウ) و رومایی (Tanaka Taro). یک ابزار باید هر چهار را تطبیق دهد. اگر یکی را از دست بدهد، اکثر سوابق آن شخص را از دست میدهد.
سایر شناسههای ژاپنی که باید شناسایی شوند
گواهینامه رانندگی (運転免許証番号): ۱۲ رقم. دو رقم اول استان را نشان میدهند. توکیو ۱۰ است. اوزاکا ۶۲ است. این به یک ابزار اجازه میدهد بررسی کند آیا مقدار برای آن منطقه معتبر است.
پاسپورت (旅券番号): دو حرف به علاوه هفت رقم. فرمت ICAO. ژاپن از جفتهای حرفی خاصی استفاده میکند.
کارت بیمه درمانی (健康保険証記号番号): یک نماد به علاوه یک شماره. فرمت به بیمهگر بستگی دارد. بیمه درمانی ملی (国民健康保険) و بیمه مدیریت شرکتی (協会けんぽ) از فرمتهای متفاوتی استفاده میکنند.
کارت اقامت (在留カード番号): برای ساکنان خارجی. دو حرف، هشت رقم، دو حرف. وزارت دادگستری این کارت را صادر میکند.
قانون ناشناسسازی در APPI
APPI یک استاندارد سختگیرانه برای دادههای ناشناس به نام اطلاعات ناشناس (匿名加工情報) دارد. در یک حوزه کلیدی از GDPR فراتر میرود. ناشناسسازی باید قابل تأیید توسط شخص ثالث و از نظر فنی غیرقابل بازگشت باشد.
برای رعایت این قانون، یک سازمان باید:
- تمام شناسههای مستقیم از جمله My Number را حذف کند.
- تمام ترکیبات شبهشناسه را پردازش کند.
- از k-anonymity یا روش مشابهی استفاده کند.
- شرح کلی مراحل انجامشده را منتشر کند.
- هرگز تلاش به شناسایی مجدد داده نکند.
راهنمای هوش مصنوعی PPC در سال ۲۰۲۴ یک قانون خاص اضافه میکند. اگر یک هوش مصنوعی را بر روی دادههای ناشناس آموزش دهید، نمیتوانید از آن مدل برای شناسایی مجدد افراد استفاده کنید. این یک ممنوعیت مستقیم بر حملات model inversion علیه مجموعههای آموزشی APPI است.
برای رعایت استانداردهای PPC، به چهار چیز نیاز دارید. اول، اعتبارسنجی Verhoeff برای شناسایی My Number. دوم، NER ژاپنی با استفاده از ja_core_news با tokenization مناسب. سوم، تطبیق نام در کانجی، کانا و رومایی. چهارم، بررسی کدهای استانی برای گواهینامههای رانندگی.
هند از Aadhaar استفاده میکند که همچنین نیاز به اعتبارسنجی Verhoeff دارد. راهنمای انطباق فنی India DPDPA آن را با جزئیات پوشش میدهد. برای شناسایی شناسههای چند کشوری، به شناسایی شناسه مالیاتی ملی اتحادیه اروپا تحت GDPR مراجعه کنید.