أصدرت لجنة حماية المعلومات الشخصية اليابانية (PPC) 45 قراراً تطبيقياً في 2024 ونشرت أول توجيهات يابانية محددة بالخصوصية في مجال الذكاء الاصطناعي. وجد التقييم التقني لـ PPC لعام 2024 أن 63% من أدوات NLP العامة المنتشرة لمعالجة الوثائق اليابانية تخفق في اكتشاف My Number (マイナンバー) بدقة — الرقم القومي الياباني المكوّن من 12 رقماً. بالنسبة للمنظمات ذات عمليات في اليابان أو التي تعالج بيانات المواطنين اليابانيين، تخلق هذه الفجوة تعرضاً مباشراً لمخاطر عدم الامتثال لـ APPI.
My Number: تحدي التحقق بـ Verhoeff
يُخصّص نظام الرقم الفردي الياباني (マイナンバー制度، نظام My Number) رقماً فريداً مكوّناً من 12 رقماً لكل مقيم في اليابان (1.36 مليار مستخدم). يُستخدَم My Number في:
- الإدارة الضريبية (الإقرارات الضريبية، كشوف الاستقطاع)
- الضمان الاجتماعي (المعاش، التسجيل في التأمين الصحي)
- الاستجابة للكوارث (التعريف في حالات الطوارئ)
خوارزمية Verhoeff: يستخدم رقم تحقق My Number خوارزمية Verhoeff — خوارزمية كشف أخطاء مبنية على نظرية المجموعات يمكنها الكشف عن جميع أخطاء الرقم الواحد وجميع أخطاء التبديل المتجاورة. تستخدم الخوارزمية ثلاثة جداول بحث: جدول ضرب المجموعة الثنائية عشرية (D5)، وجدول عكسي، وجدول تبديل.
يستلزم تطبيق Verhoeff الحفاظ على هذه الجداول الثلاثة وتطبيق تسلسل من عمليات البحث. على خلاف خوارزمية Luhn (الحساب المعياري البسيط)، لا يمكن حساب Verhoeff ذهنياً — يستلزم تطبيقاً برمجياً.
لماذا يهم هذا لاكتشاف البيانات الشخصية:
- التنسيق المكوّن من 12 رقماً لـ My Number يطابق أرقام مرجعية يابانية عديدة في الوثائق
- بدون التحقق بـ Verhoeff، تولّد الأدوات إيجابيات زائفة ضخمة من أرقام الفواتير ورموز مرجعية الوثائق وتسلسلات التاريخ والوقت
- الأدوات التي تُطبّق فحوص مجموع معيارية (modulo 10 أو 11) فقط لا يمكنها التحقق من My Number وستُفوّت أرقاماً تستلزم Verhoeff للتحقق
وجد تقييم PPC لعام 2024 أن 63% من الأدوات المنتشرة إما تطابق الأنماط دون تحقق أو تُطبّق فحوص معيارية أبسط.
النص الياباني: تحدي النظام الثلاثي
يستخدم النص الياباني ثلاثة أنظمة كتابة في آنٍ واحد:
Hiragana (ひらがな): مقطعية صوتية تُستخدَم للجسيمات النحوية ونهايات تصريف الأفعال والكلمات اليابانية الأصيلة. 46 حرفاً أساسياً.
Katakana (カタカナ): مقطعية صوتية تُستخدَم للكلمات الأجنبية والمصطلحات التقنية والتأكيد. 46 حرفاً أساسياً. عادةً ما تُكتب الأسماء الأجنبية باليابانية بـ Katakana.
Kanji (漢字): أحرف لوغوغرافية مشتقة من الصينية، تُستخدَم للأسماء وجذور الأفعال والأسماء. تستخدم اليابانية نحو 2,000 Kanji شائع.
ترميز الاسم الياباني: قد يظهر اسم شخص ياباني واحد بصيغ:
- صيغة Kanji: 田中太郎
- Hiragana (دليل صوتي، furigana): たなかたろう
- Katakana (كمحتوى أجنبي): タナカ タロウ
- Romaji (الخط اللاتيني): Tanaka Taro أو TANAKA Taro (للوثائق الدولية)
يجب على أداة اكتشاف البيانات الشخصية التعرف على الأشكال الأربعة للاسم ذاته — وإلا تخاطر بتفويت غالبية تكرارات الاسم في الوثائق اليابانية.
المعرّفات الوطنية اليابانية ما وراء My Number
رقم رخصة القيادة (運転免許証番号): 12 رقماً تبدأ برمز مقاطعة من رقمين (10 لطوكيو، 62 لأوساكا، إلخ). تُتيح رموز المقاطعات التحقق الجغرافي من رقم الرخصة.
جواز السفر الياباني (旅券番号): التنسيق القياسي ICAO — حرفان يتبعهما 7 أرقام.
رقم بطاقة التأمين الصحي (健康保険証記号番号): يتفاوت تنسيق رمز التأمين + رقم حسب جهة التأمين (اليابان لديها مخططات تأمين صحي متعددة لفئات توظيف مختلفة).
رقم بطاقة الإقامة (在留カード番号): للمقيمين الأجانب — تنسيق حرفان + 8 أرقام + حرفان، صادر عن وزارة العدل.
معيار المعلومات المجهولة وفق APPI
يُنشئ قانون APPI الياباني معياراً للتجهيل أصرم من GDPR في جانب محدد: معيار "المعلومات المجهولة" (匿名加工情報) يستلزم أن يكون التجهيل قابلاً للتحقق من الطرف الثالث وغير قابل للعكس تقنياً. يجب على المنظمات التي تنشئ مجموعات بيانات مجهولة:
- حذف أو استبدال جميع المعرّفات المباشرة (بما فيها My Number)
- معالجة جميع تجمّعات شبه المعرّفات
- تطبيق k-anonymity أو ما يعادلها
- نشر التدابير المتخذة (وصف عام، دون الكشف عن تفاصيل التطبيق المحددة)
- عدم محاولة إعادة تعريف البيانات المجهولة
تُضيف توجيهات PPC للذكاء الاصطناعي لعام 2024: لا يمكن للمنظمات التي تستخدم مجموعات بيانات مجهولة لتدريب الذكاء الاصطناعي استخدام النموذج الناتج لمحاولة إعادة تعريف الأفراد من بيانات التدريب — حظر صريح على هجمات قلب النموذج ضد مجموعات التدريب المجهولة وفق APPI.
للمعالجة المتوافقة مع APPI: My Number مع التحقق بـ Verhoeff، ونماذج NER للغة اليابانية باستخدام spaCy ja_core_news مع الرمزنة اليابانية، والتعرف على الأسماء متعدد الخطوط عبر أشكال Kanji/Kana/Romaji، والتحقق من رمز المقاطعة لرخصة القيادة هي الخط الأساسي التقني للامتثال لـ PPC.
المصادر: