الخصوصية القابلة للتكرار: لماذا تحتاج فرق التعلم الآلي إلى إعدادات مسبقة لا وثائق فقط
وافق مسؤول حماية البيانات على خطة الإخفاء. تغطي أربعة عناصر: الأسماء والبريد الإلكتروني وأرقام الهاتف وتواريخ الميلاد. الأسلوب هو الاستبدال. الخطة في أربع صفحات وموجودة في ويكي الامتثال.
قرأها اثنا عشر عالم بيانات في الاجتماع التمهيدي. كل واحد ضبط الأداة باستقلالية. بعضهم أضاف المعرّفات الوطنية. بعضهم أضاف عناوين IP. بعضهم تحول إلى الإخفاء. بعد ثلاثة أشهر، المجموعات غير متسقة.
فحصت CNIL عدة شركات ذكاء اصطناعي عام 2024. المشكلة: الاستخدام غير السليم للبيانات الشخصية في مجموعات النماذج. لم تسأل فقط عما إذا حدث الإخفاء. سألت عن مدى اتساق تطبيقه.
الوثائق ضرورية. لكنها ليست كافية. الإعداد المسبق هو الحل.
لماذا تحتاج مجموعات نماذج التعلم الآلي إلى ضبط خاص بها
بناء مجموعات النماذج له متطلبات فريدة لا تشاركها معالجة المستندات العامة.
الاستبدال لا الإخفاء. النماذج المدربة على نص يصبح فيه الأسماء [REDACTED] تتعلم هذا الرمز باعتباره علامة موضع اسم. هذا يضر النموذج. الاستبدال يحوّل «جون سميث» إلى «داود شن»، فيرى النموذج أنماط أسماء حقيقية لا رمز قناع.
النهج ذاته لجميع السجلات. مجموعة يُستبدل فيها 70% من الأسماء ويُخفى 30% ترسل إشارة مختلطة. يجب أن تمر كل سجل عبر الخطوات ذاتها.
قائمة الكيانات ذاتها. إذا احتوت المجموعة على بيانات صحية، فإن إزالة الأسماء مع إبقاء تواريخ الميلاد في بعض السجلات يخلق ثغرات. يجب على عالمي البيانات الاثني عشر إزالة الأنواع ذاتها.
لا إزالة مفرطة. إزالة تواريخ هي طوابع زمنية — لا تواريخ ميلاد — تقلص جودة المجموعة دون أي مكسب في الامتثال. الإعداد المسبق المعتمد يحدد بدقة العناصر المراد إزالتها.
مخرجات قابلة للتكرار. إذا وجب إعادة تشغيل المجموعة — مثلاً بعد اكتشاف نوع كيان فائت — فالإعداد المسبق يعطي النتيجة ذاتها في كل مرة. الضبط العشوائي لا يفعل ذلك.
مشكلة عالمي البيانات الاثني عشر
فريق تعلم آلي في شركة تقنية مالية أوروبية يستخدم مجموعات من سجلات العملاء. وافق مسؤول حماية البيانات على الغرض — الكشف عن الاحتيال — بقاعدة واحدة: يجب استبدال جميع أسماء العملاء والبريد الإلكتروني وأرقام الهاتف ومعرّفات الدفع قبل بدء العمل على النموذج.
بدون إعدادات مسبقة:
- الشخص 1 يزيل الأسماء والبريد الإلكتروني وأرقام الهاتف لكن يفوّت معرّفات الدفع
- الشخص 2 يشمل معرّفات الدفع لكن يستخدم الإخفاء لا الاستبدال
- الشخص 3 يتبع وثيقة الخطة بدقة
- الأشخاص 4-12 يتباينون
المجموعة المدمجة غير ملتزمة جزئياً ومعالَجة بإفراط جزئياً. لا يستطيع مسؤول حماية البيانات اعتمادها.
مع إعداد مسبق معتمد من مسؤول حماية البيانات:
- يُنشئ مسؤول حماية البيانات «تطوير التعلم الآلي — الكشف عن الاحتيال» بأنواع كيانات دقيقة وأسلوب الاستبدال
- يصل الإعداد المسبق إلى الاثني عشر شخصاً بقاعدة واحدة: استخدمه لجميع أعمال المجموعة
- لا أحد يستطيع تغيير الإعداد المسبق دون موافقة مسؤول حماية البيانات
كل شخص ينتج الآن المخرجات ذاتها. المجموعة المدمجة متسقة. تدقيق الذكاء الاصطناعي السنوي يمر بصفر نتائج. السنة السابقة كانت فيها ثلاث نتائج من أعمال مجموعة غير متسقة.
GDPR وقانون الذكاء الاصطناعي
محدَّث لعام 2026
دخل قانون الذكاء الاصطناعي الأوروبي حيز التنفيذ الكامل في أغسطس 2024. يضيف قواعد لأنظمة الذكاء الاصطناعي التي تستخدم البيانات الشخصية في أعمال النماذج. يجب على أنظمة الذكاء الاصطناعي عالية المخاطر توثيق مجموعاتها، بما يشمل الإخفاء المطبَّق.
المادة 5(1)(ب) من GDPR — قاعدة تحديد الغرض — تحظر استخدام البيانات الشخصية بدون أساس قانوني واضح. ركّزت قضايا CNIL لعام 2024 على هذه الثغرة: بيانات جُمعت لخدمة واحدة استُخدمت في أعمال النماذج بدون أساس صحيح أو إخفاء.
تساعد الإعدادات المسبقة على استيفاء كلتا مجموعتي القواعد:
- اسم الإعداد المسبق وضبطه: الأسلوب الموثق
- سجلات المعالجة: إثبات تطبيق الأسلوب
- موافقة مسؤول حماية البيانات: سجل توقيع على الضبط
هذا يُنشئ مسار التدقيق الذي يستلزمه كلا القانونين. للاطلاع على التزامات المادة 10 بالتفصيل، انظر دليل بيانات التدريب وفق قانون الذكاء الاصطناعي الأوروبي.
ضبط الإعداد المسبق لمجموعات نماذج NLP
الأنواع المُدرَجة في معظم مجموعات نماذج NLP:
- PERSON — استبدال بأسماء مماثلة
- EMAIL_ADDRESS — استبدال بعناوين اصطناعية
- PHONE_NUMBER — استبدال بأرقام اصطناعية
- CREDIT_CARD / IBAN — استبدال أو إخفاء
- LOCATION — استبدال بأماكن مماثلة إذا كان الموقع مهماً؛ إخفاء إذا لم يكن
- DATE_OF_BIRTH — إخفاء؛ تجميع العمر في الغالب مطلوب
الأنواع المحذوفة في الغالب:
- التواريخ العامة — الطوابع الزمنية تساعد نماذج التعامل مع الزمن
- أسماء المنظمات — تساعد نماذج الكيانات المسماة
- عناوين URL — تساعد نماذج الروابط والمراجع
يحدد قائد التعلم الآلي ومسؤول حماية البيانات هذه القواعد في الإعداد المسبق المعتمد. يطبّقها أعضاء الفريق. لا يتخذون خيارات ضبط.
الإعدادات المسبقة بوصفها ذاكرة مؤسسية
قبل الإعدادات المسبقة. عاش ضبط الكيانات الصحيح في أذهان ثلاثة علماء بيانات مرّوا بمراجعة الامتثال. اثنان منهم غادرا في الربع الثالث، وذهبت المعرفة معهم.
بعد الإعدادات المسبقة. يعيش الضبط في «تطوير التعلم الآلي — سجلات العملاء الإصدار 2.1». يُظهر سجل الإصدارات متى أُنشئ، ومن وافق عليه، وما الذي تغيّر من الإصدار 2.0. أعضاء الفريق الجدد يستخدمون الإعداد المسبق ويحصلون على المعرفة المضمّنة فيه.
أضاف الإصدار 2.1 اكتشاف IBAN بعد أن وجدت مراجعة أنه مفقود. اعتُمد الإصدار 2.0 في فبراير 2025. السجل مكتمل.
للاطلاع على كيفية عمل سجلات المعالجة وتدفقات مراجعة مسؤول حماية البيانات، انظر دليل إخفاء هوية بيانات التدريب وفق GDPR للتعلم الآلي.
الإعدادات المسبقة في مقابل نمط CNIL
حدّدت قضايا CNIL للذكاء الاصطناعي عام 2024 نمطاً واضحاً: لا تسأل فقط عما أُزيل بل عن كيفية إدارته. الإعداد المسبق المشترك مع سجل موافقة مسؤول حماية البيانات وسجلات المعالجة يُجيب على هذا مباشرة.
الضبط العشوائي لا يفعل ذلك. الثغرة ذاتها موجودة في قضايا هيئات حماية البيانات الأوروبية الأخرى التي تتبع منطق CNIL. لمزيد من المعلومات حول نهج CNIL للذكاء الاصطناعي، انظر دليل امتثال CNIL GDPR والذكاء الاصطناعي.
خلاصة
الوثائق تخبر أعضاء الفريق بما يجب فعله. الإعدادات المسبقة تجعل تطبيقه بالطريقة ذاتها في كل مرة سهلاً وقابلاً للإنفاذ.
بالنسبة لمجموعات نماذج التعلم الآلي، الاتساق ضرورة قانونية وتقنية في آنٍ واحد. الإعداد المسبق يلبي الضرورتين معاً.
hيئات حماية البيانات التي تفحص ممارسات الذكاء الاصطناعي تريد أدلة على الإخفاء الموحد. إعداد مسبق مطبَّق بالطريقة ذاتها عبر جميع أعمال المجموعة هو أوضح إثبات يمكنك تقديمه.