هيئة CNIL الفرنسية: متطلبات أدوات PII لدى سلطات حماية البيانات
تُعدّ الهيئة الوطنية الفرنسية لحماية المعطيات والحريات (CNIL) الأكثر صرامةً من بين الجهات الأوروبية لحماية البيانات. في حين تُصدر معظم الجهات الأوروبية مبادئ توجيهية عامة، تذهب CNIL أبعد من ذلك بنشر توجيهات تقنية دقيقة تُعرف بـrecommandations، تُحدد معايير صارمة لإخفاء الهوية واستخدام البيانات في الذكاء الاصطناعي.
استندت كثير من قرارات CNIL في عام 2024 إلى ضعف إخفاء الهوية في أنظمة الذكاء الاصطناعي. وقد استقبلت الهيئة 16,433 شكوى في 2023، أي بزيادة قدرها 43% مقارنةً بعام 2022.
توجيهات CNIL تُشكّل السياسة الأوروبية
تتصدّر نصوص CNIL التقنية مراجع سلطات حماية البيانات الأوروبية الأخرى. ثمة وثيقتان محوريتان:
دليل الممارسة الجيدة لإخفاء الهوية (2023): يتناول هذا الدليل k-anonymity وl-diversity والخصوصية التفاضلية، ويوضح كيفية تطبيق كل منهج على البيانات الفرنسية. تستشهد به هيئة IMY السويدية وسلطات أوروبية أخرى في قواعدها الخاصة.
توجيهات أنظمة الذكاء الاصطناعي (2024): تُحدد CNIL ستة أنواع من البيانات يجب معالجتها في بيانات تدريب الذكاء الاصطناعي — وهو مستوى من التفصيل لم تبلغه أي سلطة أوروبية أخرى في ما يخص الذكاء الاصطناعي.
قواعد ملفات تعريف الارتباط: تضع CNIL أعلى سقف تقني لأدوات الموافقة في الاتحاد الأوروبي، وتُحدّثه بانتظام.
رقم NIR: المعرّف الفرنسي الأكثر حساسية
رقم التسجيل في السجل (NIR) — المعروف أيضاً بـnuméro de sécurité sociale — هو رقم الضمان الاجتماعي الفرنسي المكوّن من 15 خانة.
تنسيقه: S AA MM DD CCC OOO K
- S — خانة واحدة: الجنس
- AA — سنة الميلاد
- MM — شهر الميلاد
- DD — الدائرة الجغرافية (01–95، 2A/2B لكورسيكا، 97–99 للمناطق الخارجية، 99 للأجانب)
- CCC — رمز البلدية
- OOO — ترتيب الميلاد
- K — مفتاح تحقق من خانتين (97 − (NIR mod 97))
يختزن الرقم الواحد معلومات الجنس وتاريخ الميلاد ومكانه. تُصنّفه CNIL بيانات عالية الخطورة وتستوجب منحه العناية ذاتها المطلوبة للبيانات ذات الفئة الخاصة بموجب المادة 9 من GDPR.
لماذا تُخفق الأدوات في اكتشاف NIR: تفشل أدوات NLP العامة في اكتشاف NIR لثلاثة أسباب. أولاً: الأرقام الـ15 (المكتوبة أحياناً دون فواصل) تُشبه ظاهرياً أرقاماً طويلة أخرى. ثانياً: الخانات من 7 إلى 11 تحتوي على رمز الدائرة الجغرافية، وتترتب على تجاهل اختبار mod-97 إيجابيات كاذبة. ثالثاً: تستخدم دائرتا كورسيكا رموز 2A و2B لا أرقاماً صرفة، فتفشل الأدوات المصمّمة للأنماط الرقمية البحتة.
يستلزم الاكتشاف السليم لرقم NIR ثلاثة عناصر: اختبار مفتاح mod-97، ومرجع جغرافي شامل، وقواعد مدركة لكورسيكا.
راجع نظرة عامة على الامتثال الأمني لمعرفة كيفية اندماج تغطية المعرّفات ضمن طبقة ضمان GDPR.
SIREN وSIRET: معرّفات الشركات في الملفات الشخصية
SIREN: رقم تعريف الشركة الفرنسية من 9 خانات مع رقم تحقق بخوارزمية Luhn، ويرد في جميع الوثائق التجارية الفرنسية.
SIRET: رقم من 14 خانة يتكوّن من SIREN (9 خانات) إضافةً إلى رمز المنشأة (5 خانات). يُعرّف SIRET بالموقع بينما يُعرّف SIREN بالشركة.
كثيراً ما تحتوي ملفات الأعمال على أرقام SIRET مقترنة بأسماء الموظفين. تُعامل CNIL الاثنين معاً بوصفهما بيانات شخصية، فتستدعي هذه التركيبة أحكام GDPR حتى في غياب حقل بيانات شخصية منفصل.
ست خطوات لإخفاء الهوية في تدريب الذكاء الاصطناعي
تتناول توجيهات CNIL للذكاء الاصطناعي الصادرة عام 2024 ستة أنواع من البيانات يجب معالجتها قبل استخدام السجلات الشخصية الفرنسية في التدريب:
- إزالة المعرّفات المباشرة — يجب استبدال الأسماء وNIR وSIREN أو حذفها
- تعميم شبه المعرّفات — العمر والدائرة الجغرافية والمهنة قد تتضافر في إعادة التعريف؛ يجب تقليل دقتها
- إضافة ضوضاء إلى الأرقام — تستدعي الحقول الرقمية إضافة ضوضاء معايرة لمنع الاستنتاج
- اختبار k-anonymity — يجب أن يشبه كل فرد k-1 آخرين على الأقل؛ توصي CNIL بـk ≥ 5
- اختبار l-diversity — يجب أن تتنوع السمات الحساسة داخل كل مجموعة
- إجراء فحص خطر إعادة التعريف — استخدام منهج موثّق قبل أي إصدار للبيانات
إزالة NIR والاسم الكامل وحدها لا تكفي. أكّدت CNIL ذلك في قرارات تطبيقها. شبه المعرّفات كالرمز البريدي والتخصص الطبي تحتاج هي الأخرى إلى معالجة.
يتناول دليل الامتثال للائحة GDPR السجلات التي تتوقع تدقيقات CNIL إيجادها.
السياق اللغوي للكشف عن البيانات الشخصية الفرنسية
ثمة سياقات لغوية متعددة في فرنسا تؤثر على عمليات الكشف.
الفرنسية المعيارية هي لغة جميع الوثائق الرسمية. يجب على نماذج NER التعامل مع الحروف المُشكَّلة: é، è، ê، ë، à، â، î، ô، û، ç، œ.
المناطق الخارجية (DOM-TOM): مارتينيك وغوادلوب وريونيون وغويانا ومايوت تستخدم رموز NIR في النطاق 97–98. أنماط الأسماء المحلية تختلف عن فرنسا الأصلية.
الألزاس-موزيل: تظهر أسماء ذات أصل ألماني وبعض تنسيقات الوثائق الألمانية في السجلات الفرنسية. قد تُخفق النماذج المدرَّبة على الفرنسية المعيارية فحسب في اكتشافها.
الاستخدام العابر للحدود: تستخدم الفرنسية البلجيكية تنسيق هوية مختلفاً. الأدوات المستخدمة في فرنسا وبلجيكا تحتاج قواعد لكل منهما.
ما يجب أن تغطيه أداتك
يستلزم الامتثال الفرنسي أربع قدرات تقنية:
- NIR مع اختبار mod-97 — مطابقة الأنماط وحدها تفشل. يجب على الأدوات تشغيل اختبار المفتاح والتعامل مع رموز 2A/2B.
- SIREN/SIRET مع اختبار Luhn — تظهر معرّفات الأعمال في الملفات الشخصية وتُنشئ تركيبات مشمولة بـGDPR مع الأسماء.
- NER بالفرنسية مع دعم كامل للتشكيل — يجب التعامل مع الأسماء المركّبة (Jean-Pierre)، والجسيمات (de, du, des)، والأحرف المُشكَّلة.
- عملية موثّقة من ست خطوات — تستلزم أي قناة تدريب على بيانات فرنسية سجلاً مكتوباً لكل نشاط من أنشطة إخفاء الهوية.