هيئة PPC اليابانية وقانون APPI: الامتثال في بيانات تدريب الذكاء الاصطناعي
تضطلع هيئة حماية المعلومات الشخصية (PPC) في اليابان بتطبيق قانون حماية المعلومات الشخصية (APPI). وقد جاءت تعديلات عام 2022 أوسعَ نطاقاً من أي تعديلات سابقة، إذ أضافت قواعد جديدة تتعلق بالبيانات المزيفة الهوية، ونقل البيانات عبر الحدود، ومجموعات بيانات تدريب الذكاء الاصطناعي. وأصدرت الهيئة 45 قراراً في عام 2024، ونشرت أيضاً أول دليل ياباني متخصص لخصوصية الذكاء الاصطناعي في العام ذاته.
إذا كانت مؤسستك تدرّب نماذج على نصوص يابانية أو تحتفظ بسجلات مستخدمين يابانيين، فهذه القواعد سارية المفعول عليها الآن.
أبرز ما أحدثته تعديلات 2022
aضطرت 2.4 مليون شركة يابانية إلى تحديث قواعد الخصوصية وإعادة هيكلة إجراءات معالجة البيانات.
المعلومات المزيفة الهوية (仮名加工情報): فئة قانونية وسطى جديدة تشمل السجلات الشخصية التي جُرِّدت من المعرّفات المباشرة، مع بقاء إمكانية إعادة التعريف عبر مفتاح. يجوز نقل هذه البيانات داخل المؤسسة دون الحصول على موافقة كاملة، غير أنه لا يجوز نقلها إلى أطراف ثالثة. ولا يوجد ما يماثل هذه الفئة في اللائحة الأوروبية العامة لحماية البيانات (GDPR).
المعلومات المجهولة الهوية (匿名加工情報): يجب أن تكون إعادة التعريف مستحيلة تقنياً، ويُشترط أن يؤكد ذلك طرف ثالث مؤهل. والمعيار الياباني في هذا الشأن أصرم من GDPR؛ إذ تجعل اللائحة الأوروبية هذا الفحص اختيارياً، بينما يُلزم به قانون APPI.
النقل عبر الحدود: يجب أن تستوفي عمليات النقل إلى دول أخرى المستوى الياباني لحماية البيانات. وتحتفظ هيئة PPC بقائمة بالدول المعتمدة، وتشملها الاتحاد الأوروبي.
مجموعات بيانات تدريب الذكاء الاصطناعي: تناولت توجيهات هيئة PPC الصادرة عام 2024 هذا الموضوع صراحةً:
- يجب أن تكون مجموعات بيانات التدريب مجهولة الهوية تماماً أو مستندة إلى أساس قانوني صحيح — وعادةً ما يكون الموافقة الصريحة.
- لا تسري استثناءات المعالجة إلا إذا كان النموذج عاجزاً عن تحديد هويات الأفراد من خلال مخرجاته.
- على مطوري نماذج اللغة الكبيرة الذين يدرّبون نماذجهم على سجلات يابانية مُجمَّعة من مواقع الإنترنت إثبات وجود أساس قانوني صحيح لعملية الجمع.
للاطلاع على نظرة شاملة حول واجبات التوافق مع عمليات النقل عبر الحدود، راجع /legal/compliance.
رقم My Number: الرقم التعريفي الوطني الياباني
رقم My Number (マイナンバー) هو رقم تعريفي وطني مكوّن من 12 خانة، تُصدره اليابان لجميع المقيمين على أراضيها بمن فيهم الرعايا الأجانب. يعمل هذا النظام منذ عام 2016 ويغطي الضرائب والضمان الاجتماعي والاستجابة للكوارث.
آلية رقم التحقق: يعتمد My Number طريقة Verhoeff، وهي نظام تحقق رياضي. يتسم بناؤه بمزيد من التعقيد مقارنةً بخوارزمية Luhn المستخدمة في الرقم الشخصي السويدي والرقم التأميني الكندي. تعتمد معظم وثائق الهوية الأوروبية رياضيات معيارية أبسط.
صعوبة الكشف: إن البحث عن تسلسلات مكوّنة من 12 رقماً وحده لن يكون كافياً. فالتواريخ والرموز البريدية وأرقام الفواتير تبدو متشابهة ظاهرياً. يستلزم التمييز بينها تطبيق منطق Verhoeff الكامل، ولا تكفي تعبيرات regex البسيطة لذلك.
أشارت مراجعة هيئة PPC لعام 2024 إلى نتيجة صادمة: 63% من أدوات NLP العامة تعجز عن اكتشاف رقم My Number في السجلات اليابانية.
تعرّف على كيفية تعامل anonym.legal مع My Number عبر /entities.
ثلاثة أنظمة كتابة في آنٍ واحد
تستخدم اليابانية Hiragana وKatakana والكانجي معاً، وقد يظهر الحرف اللاتيني في بعض السياقات. وقد يتباين شكل الاسم الواحد بين السجلات المختلفة. تفشل الأدوات المصمّمة للنصوص اللاتينية في التعامل مع اليابانية دون دعم إضافي متخصص.
تداعيات ذلك على الكشف عن الأسماء:
- تحتاج نماذج NER اليابانية إلى تدريب على نصوص يابانية، باستخدام نموذج spaCy ja_core_news.
- لا توجد مسافات بين كلمات اللغة اليابانية، مما يجعل تقطيع الكلمات خطوة مستقلة تستلزم أدوات متوافقة مع اليابانية.
- تظهر أسماء الأشخاص بالكانجي مع أدلة قراءة بالـHiragana أو الـKatakana، ويجب على الأدوات اكتشاف الشكلين معاً.
- تستدعي أسماء الشركات (会社名، 株式会社) قواعد يابانية خاصة.
لمزيد من المعلومات حول NER عبر لغات منطقة آسيا والمحيط الهادئ، راجع /docs/faq.
تنسيقات وثائق الهوية اليابانية الأخرى
رخصة القيادة: 12 خانة مع رمز بادئة يدل على المنطقة الجغرافية. الرموز ثابتة — طوكيو 10، أوساكا 62 — ويمكن التحقق منها.
جواز السفر: تنسيق ICAO قياسي مع قواعد إصدار يابانية خاصة.
بطاقة التأمين الصحي (健康保険証): رمز (記号) يتبعه رقم، ويتفاوت التنسيق بحسب شركة التأمين.
بطاقة الإقامة (在留カード): مخصصة للمقيمين الأجانب. التنسيق: حرفان، ثمانية أرقام، حرفان. تصدرها وزارة العدل.
وضع نقل البيانات بين اليابان والاتحاد الأوروبي
تمتعت اليابان بقرار ملاءمة متبادل مع الاتحاد الأوروبي منذ عام 2019، مما يتيح تدفق البيانات الشخصية بين الطرفين دون خطوات إضافية. وتُعدّ اليابان من النادر من الدول غير الأوروبية التي تحظى بملاءمة أوروبية كاملة.
يشمل الاتفاق البيانات الشخصية العادية. أما السجلات الصحية الحساسة وذات السوابق الجنائية، فتتطلب ضمانات إضافية حتى في ظل اتفاقية الملاءمة. يجب على الشركات التي تنقل هذه السجلات توثيق الخطوات الإضافية المتخذة.
راجع واجبات النقل الخاصة بك عبر /security-compliance.
قائمة التحقق من الامتثال الياباني
ابدأ من هنا إذا كنت تتعامل مع سجلات شخصية يابانية:
- الكشف عن رقم My Number مع منطق التحقق من رقم الفحص بطريقة Verhoeff.
- NER ياباني باستخدام نماذج مدرّبة على نصوص بالخط الياباني — لا النماذج اللاتينية.
- دعم أشكال الأسماء بالكانجي والـHiragana والـKatakana مع متغيرات أدلة القراءة.
- الكشف عن رخصة القيادة مع التحقق من رموز المنطقة.
- الكشف عن بطاقة الإقامة وفق تنسيق وزارة العدل.
- الكشف عن بطاقة التأمين الصحي عبر متغيرات شركات التأمين المختلفة.
- أساس قانوني صحيح لكل مجموعة بيانات تدريب للذكاء الاصطناعي تحتوي على بيانات شخصية.
- مراجعة طرف ثالث لأي بيانات مصنّفة مجهولة الهوية بموجب قانون APPI.
- ضمانات إضافية للسجلات الحساسة التي تُنقل بموجب اتفاقية الملاءمة بين الاتحاد الأوروبي واليابان.
راجع /docs/glossary للاطلاع على تعريفات مصطلحات APPI المستخدمة في هذا الدليل.