أصدرت هيئة حماية المعلومات الشخصية (PPC) في اليابان 45 قراراً تنفيذياً في 2024 ونشرت أول دليل ياباني متخصص لخصوصية الذكاء الاصطناعي. وكشف التقييم التقني لـPPC لعام 2024 أن 63% من أدوات NLP العامة المنشورة لمعالجة الوثائق اليابانية تعجز عن الكشف الدقيق عن رقم My Number (マイナンバー) — رقم الهوية الوطني الياباني المكوّن من 12 خانة. تُشكّل هذه الثغرة لدى المؤسسات التي تمارس عمليات في اليابان أو تعالج بيانات المواطنين اليابانيين انكشافاً مباشراً لمخاطر عدم الامتثال لقانون APPI.
رقم My Number: تحدي التحقق بخوارزمية Verhoeff
يُخصِّص نظام الرقم الفردي الياباني (マイナンバー制度، نظام My Number) رقماً فريداً مكوّناً من 12 خانة لكل مقيم في اليابان. يُستخدم رقم My Number في:
- الإدارة الضريبية (الإقرارات الضريبية، كشوف الاستقطاع)
- الضمان الاجتماعي (التسجيل في التقاعد والتأمين الصحي)
- الاستجابة للكوارث (التعريف في حالات الطوارئ)
خوارزمية Verhoeff: يعتمد رقم التحقق في My Number خوارزمية Verhoeff — وهي خوارزمية كشف أخطاء نظرية المجموعات تقدر على اكتشاف جميع أخطاء الخانة الواحدة وجميع أخطاء التبديل المتجاور. تستخدم الخوارزمية ثلاثة جداول بحث: جدول ضرب المجموعة الثنائية (D5)، وجدول المعكوس، وجدول التبديل.
يستلزم تطبيق Verhoeff الاحتفاظ بهذه الجداول الثلاثة وتطبيق سلسلة من عمليات البحث. على عكس خوارزمية Luhn (الحساب المعياري البسيط)، لا يمكن حساب Verhoeff ذهنياً — بل يستلزم تطبيقاً برمجياً.
أهمية ذلك لكشف البيانات الشخصية:
- يتطابق تنسيق My Number المكوّن من 12 خانة مع أرقام مرجعية كثيرة في الوثائق اليابانية
- بدون التحقق بخوارزمية Verhoeff، تُولّد الأدوات إيجابيات كاذبة كثيرة من أرقام الفواتير ورموز المراجع وتسلسلات التاريخ والوقت
- الأدوات التي تطبق فحوصات معيارية أبسط (modulo 10 أو 11) لا تستطيع التحقق من My Number وستُفوّت الأرقام التي يتطلب التحقق منها تشغيل Verhoeff
وجد تقييم PPC لعام 2024 أن 63% من الأدوات المنشورة إما تطابق الأنماط دون تحقق أو تطبق فحوصات معيارية أبسط — مما يُولّد إيجابيات كاذبة وسلبيات كاذبة في آنٍ واحد.
النص الياباني: تحدي نظام الكتابة الثلاثي
يستخدم النص الياباني ثلاثة أنظمة كتابة في آنٍ واحد:
Hiragana (ひらがな): مقطعية صوتية تُستخدم للجسيمات النحوية ونهايات الأفعال والكلمات اليابانية الأصيلة. 46 حرفاً أساسياً.
Katakana (カタカナ): مقطعية صوتية تُستخدم للكلمات الأجنبية والمصطلحات التقنية والتأكيد. 46 حرفاً أساسياً. تُكتب الأسماء الأجنبية في اليابانية عادةً بالـKatakana.
Kanji (漢字): حروف لوغوغرافية مشتقة من الصينية، تُستخدم للأسماء وجذور الأفعال والأسماء. تستخدم اليابانية نحو 2,000 Kanji شائع.
تشفير الأسماء اليابانية: قد يظهر اسم شخص ياباني واحد في:
- صيغة Kanji: 田中太郎
- Hiragana (دليل نطق، furigana): たなかたろう
- Katakana (كمحتوى أجنبي): タナカ タロウ
- Romaji (حروف لاتينية): Tanaka Taro أو TANAKA Taro (للوثائق الدولية)
يجب أن تتعرف أداة البيانات الشخصية على الأشكال الأربعة للاسم ذاته — وإلا ستُفوّت غالبية ظهور الأسماء في الوثائق اليابانية.
أرقام الهوية اليابانية الوطنية
رقم رخصة القيادة (運転免許証番号): 12 خانة تبدأ برمز محافظة مكوّن من خانتين (10 لطوكيو، 62 لأوساكا). تُتيح رموز المحافظة التحقق الجغرافي من رقم الرخصة.
جواز السفر الياباني (旅券番号): تنسيق ICAO القياسي — حرفان يعقبهما 7 أرقام. تتبع تركيبات الحروف اليابانية اصطلاحات الإصدار المحددة.
رقم شهادة التأمين الصحي (健康保険証記号番号): يتفاوت تنسيق رمز التأمين + الرقم بحسب جهة التأمين (لليابان أنظمة تأمين صحي متعددة لفئات توظيف مختلفة). يختلف التأمين الشامل (国民健康保険) عن تأمين الجمعيات (協会けんぽ).
رقم بطاقة الإقامة (在留カード番号): للمقيمين الأجانب — التنسيق حرفان + 8 أرقام + حرفان، تصدرها وزارة العدل.
معيار المعلومات المجهولة الهوية في قانون APPI
يُرسي قانون APPI الياباني معياراً أكثر صرامة من GDPR في جانب محدد: يشترط معيار "المعلومات المجهولة الهوية" (匿名加工情報) أن تكون إخفاء الهوية قابلاً للتحقق من طرف ثالث وغير قابل للعكس تقنياً. يجب على المؤسسات التي تُنشئ مجموعات بيانات مجهولة الهوية:
- حذف أو استبدال جميع المعرّفات المباشرة (بما فيها My Number)
- معالجة جميع تركيبات شبه المعرّفات
- تطبيق k-anonymity أو ما يعادلها
- نشر التدابير المتخذة (وصف عام دون الكشف عن تفاصيل التنفيذ)
- عدم محاولة إعادة تعريف البيانات المجهولة
تضيف توجيهات PPC للذكاء الاصطناعي لعام 2024: لا يجوز للمؤسسات التي تستخدم مجموعات البيانات المجهولة في تدريب الذكاء الاصطناعي استخدام النموذج المُنتَج لمحاولة إعادة تعريف الأفراد من بيانات التدريب — وهو حظر صريح على هجمات انعكاس النموذج ضد مجموعات التدريب المجهولة بموجب APPI.
للامتثال مع APPI: الكشف عن My Number بمنطق التحقق بـVerhoeff، وNER باليابانية باستخدام spaCy ja_core_news مع تقطيع ياباني، والتعرف على الأسماء بأشكال Kanji/Kana/Romaji المتعددة، والتحقق من رموز المحافظة لرخصة القيادة هي الخط الأساسي للامتثال التقني مع PPC.
المصادر: