العودة إلى المدونةتقني

الخصوصية القابلة للتكرار: لماذا تحتاج فرق التعلم...

يجب أن يكون إخفاء بيانات تدريب التعلم الآلي متسقًا وقابلًا للتكرار. إذا طبق علماء البيانات A و B أنواع كيان مختلفة، فإن مجموعات بيانات التدريب تكون...

April 20, 20266 دقيقة قراءة
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

الخصوصية القابلة للتكرار: لماذا تحتاج فرق التعلم الآلي إلى إعدادات تكوين، وليس مجرد توثيق

وافق مسؤول حماية البيانات على وثيقة إجراء إخفاء الهوية. تحدد الوثيقة: إزالة الأسماء، وعناوين البريد الإلكتروني، وأرقام الهواتف، وتواريخ الميلاد من مجموعات بيانات التدريب باستخدام طريقة الاستبدال. الوثيقة تتكون من 4 صفحات وتوجد في ويكي الامتثال.

يستشير اثنا عشر عالم بيانات الوثيقة عند بدء المشروع. يقومون بتكوين نسخهم الخاصة من أداة إخفاء الهوية. بعضهم يضيف أرقام الهوية الوطنية. بعضهم يتضمن عناوين IP. بعضهم يستخدم "الإخفاء" بدلاً من "الاستبدال". بعد ثلاثة أشهر، تصبح مجموعات بيانات التدريب غير متسقة.

تحققت CNIL (الهيئة الفرنسية لحماية البيانات) من عدة شركات ذكاء اصطناعي في عام 2024 لاستخدامها غير الصحيح للبيانات الشخصية في مجموعات بيانات التدريب. لم تقتصر التحقيقات على ما إذا كان قد تم إخفاء الهوية، بل كيف تم تطبيقها بشكل متسق.

التوثيق ضروري. لكنه ليس كافيًا. الحل الفني هو الإعداد.

لماذا تتطلب بيانات تدريب التعلم الآلي تكوينًا محددًا

تحتوي إخفاء بيانات تدريب التعلم الآلي على متطلبات لا تتوفر في إخفاء الوثائق العامة:

استبدال، وليس إخفاء: تتعلم نماذج اللغة العصبية المدربة على نص حيث يتم استبدال الأسماء برموز [مخفي] أن [مخفي] هو معرف خاص يظهر في مواقع الأسماء. هذا يخلق سلوكًا غير مرغوب فيه للنموذج. طريقة الاستبدال (استبدال "جون سميث" بـ "ديفيد تشين") تحافظ على التوزيع الإحصائي للأسماء في النص بينما تزيل المعلومات التعريفية. يتعلم النموذج من توزيعات مواقع الأسماء الواقعية، وليس من رمز قناع.

الاتساق عبر مجموعة البيانات: مجموعة بيانات تدريب حيث يتم استبدال 70% من الأسماء و30% هي [مخفي] تنتج إشارة تدريب غير متسقة. يجب معالجة جميع السجلات بشكل متطابق.

اختيار كيان متسق: إذا كانت مجموعة بيانات التدريب تحتوي على بيانات صحية، فإن إزالة الأسماء ولكن ليس تواريخ الميلاد في بعض السجلات تخلق عدم اتساق. يجب على جميع علماء البيانات الاثني عشر إزالة نفس مجموعة أنواع الكيانات.

عدم الإفراط في إخفاء الهوية: طريقة الاستبدال المفرطة التطبيق - إزالة التواريخ التي هي مجرد طوابع زمنية، وليس تواريخ الميلاد - تقلل من فائدة مجموعة البيانات دون تحسين الامتثال. يحدد الإعداد المعتمد بالضبط أي كيانات تاريخية يجب إزالتها (تاريخ الميلاد، وليس الطوابع الزمنية العامة).

قابلية التكرار عبر العمليات: إذا كانت نفس مجموعة البيانات بحاجة إلى إعادة المعالجة (على سبيل المثال، بعد اكتشاف نوع كيان مفقود)، فإن إعادة المعالجة بنفس الإعداد تنتج مخرجات متسقة. التكوينات العشوائية ليست قابلة للتكرار.

مشكلة علماء البيانات الاثني عشر

تستخدم فريق التعلم الآلي في شركة فينتك أوروبية مجموعة بيانات تدريب مشتقة من سجلات تفاعل العملاء. وافق مسؤول حماية البيانات على غرض المعالجة (تدريب النموذج لاكتشاف الاحتيال) مع شروط: يجب استبدال جميع أسماء العملاء، وعناوين البريد الإلكتروني، وأرقام الهواتف، ومعرفات الدفع باستخدام طريقة الاستبدال قبل أي تدريب للنموذج.

بدون إعدادات:

  • عالم البيانات 1 يزيل الأسماء، وعناوين البريد الإلكتروني، وأرقام الهواتف (لا يتضمن معرفات الدفع)
  • عالم البيانات 2 يتضمن معرفات الدفع ولكنه يستخدم الإخفاء وليس الاستبدال
  • عالم البيانات 3 يتبع وثيقة الإجراء بالضبط
  • علماء البيانات 4-12 يختلفون

النتيجة: 12 نسخة معالجة بشكل مختلف من بيانات التدريب. مجموعة البيانات المدمجة غير متوافقة جزئيًا، ومفرطة الإخفاء جزئيًا، وغير متسقة إحصائيًا.

مع الإعداد المعتمد من قبل مسؤول حماية البيانات:

  • ينشئ مسؤول حماية البيانات إعداد "تدريب التعلم الآلي - اكتشاف الاحتيال" مع أنواع الكيانات الدقيقة وطريقة الاستبدال
  • يتم مشاركة الإعداد مع جميع علماء البيانات الاثني عشر مع تعليمات: "استخدم هذا الإعداد لجميع تحضيرات بيانات التدريب"
  • لا يمكن تعديل الإعداد دون مراجعة مسؤول حماية البيانات (تحكم في الوصول إلى التكوين)

النتيجة: جميع علماء البيانات الاثني عشر ينتجون مخرجات إخفاء هوية متطابقة. مجموعة البيانات المدمجة متسقة. تمر مراجعة الامتثال السنوية للذكاء الاصطناعي دون ملاحظات.

السنة السابقة: 3 ملاحظات تتعلق بإخفاء بيانات تدريب التعلم الآلي غير المتسقة. بعد الإعداد: 0 ملاحظات.

تقاطع قانون الذكاء الاصطناعي مع اللائحة العامة لحماية البيانات

يضيف قانون الذكاء الاصطناعي في الاتحاد الأوروبي (ساري المفعول منذ أغسطس 2024) متطلبات امتثال لأنظمة الذكاء الاصطناعي التي تستخدم البيانات الشخصية للتدريب. يجب على أنظمة الذكاء الاصطناعي عالية المخاطر توثيق بيانات تدريبها، بما في ذلك تدابير الإخفاء المطبقة.

مبدأ تحديد الغرض في اللائحة العامة لحماية البيانات (المادة 5(1)(ب)) يحد من استخدام البيانات الشخصية لتدريب التعلم الآلي دون أساس قانوني محدد. ركزت إجراءات التنفيذ التي قامت بها CNIL في عام 2024 ضد شركات الذكاء الاصطناعي على هذا التقاطع: البيانات الشخصية التي تم جمعها لتقديم الخدمة تُستخدم للتدريب دون أساس قانوني كافٍ أو إخفاء.

تكون متطلبات التوثيق لكل من اللائحة العامة لحماية البيانات وقانون الذكاء الاصطناعي أسهل في الوفاء بها عندما يتم فرض عملية إخفاء بيانات التدريب تقنيًا من خلال الإعدادات:

  • اسم الإعداد والتكوين: منهجية الإخفاء الموثقة
  • سجلات المعالجة: دليل على أن المنهجية تم تطبيقها على مجموعات بيانات معينة
  • موافقة مسؤول حماية البيانات: قرار مسجل يصرح بتكوين الإعداد

هذا يخلق مسار تدقيق يتطلبه كلا التنظيمين.

تكوين الإعداد لبيانات تدريب التعلم الآلي

أنواع الكيانات لمعظم بيانات تدريب معالجة اللغة الطبيعية:

  • PERSON (الأسماء - استبدال بأسماء مشابهة)
  • EMAIL_ADDRESS (استبدال ببريد إلكتروني صناعي)
  • PHONE_NUMBER (استبدال بأرقام هواتف صناعية)
  • CREDIT_CARD / IBAN (استبدال أو إخفاء - بيانات الدفع)
  • LOCATION (استبدال بمواقع مشابهة إذا كانت الجغرافيا مطلوبة للنموذج؛ إخفاء إذا لم تكن مطلوبة)
  • DATE_OF_BIRTH (إخفاء - غالبًا ما تكون التعميمات العمرية مطلوبة)

أنواع الكيانات التي عادةً لا تُدرج لبيانات تدريب معالجة اللغة الطبيعية:

  • التواريخ العامة (ليس تاريخ الميلاد) - غالبًا ما تكون الطوابع الزمنية والتواريخ في النص مطلوبة للنمذجة الزمنية
  • أسماء المنظمات - غالبًا ما تكون مطلوبة لتدريب التعرف على الكيانات
  • URLs - غالبًا ما تكون مطلوبة للربط واستخراج المراجع

يحدد قائد التعلم الآلي ومسؤول حماية البيانات هذه التمييزات في الإعداد المعتمد. لا يتخذ علماء البيانات الأفراد هذه القرارات - بل يطبقون الإعداد.

المعرفة المؤسسية وإصدار الإعداد

تعمل الإعدادات كوظيفة ذاكرة مؤسسية:

قبل الإعدادات: كانت التكوين الصحيح لنوع الكيان لبيانات تدريب التعلم الآلي موجودة في عقول ثلاثة علماء بيانات كانوا قد عملوا خلال عملية مراجعة الامتثال. عندما غادر اثنان منهم في الربع الثالث، فقدت المعرفة المؤسسية.

بعد الإعدادات: تم ترميز التكوين في "تدريب التعلم الآلي - بيانات العملاء v2.1". تظهر سجل النسخة متى تم إنشاؤه، ومن وافق عليه، وما الذي تغير بين v2.0 و v2.1. يستخدم علماء البيانات الجدد الإعداد ويرثون المعرفة المؤسسية المدمجة فيه.

أضاف الإصدار 2.1 اكتشاف IBAN بعد أن وجدت مراجعة الامتثال أنه كان مفقودًا. تُظهر سجلات الإصدار 2.0 أنه تم الموافقة عليه في فبراير 2025. مسار التدقيق مكتمل.

الخاتمة

تخبر الوثائق أعضاء الفريق بما يجب القيام به. تجعل الإعدادات من السهل تقنيًا - وقابلة للتنفيذ تقنيًا - القيام بذلك بشكل متسق.

بالنسبة لبيانات تدريب التعلم الآلي بشكل خاص، فإن الاتساق هو متطلب امتثال (اللائحة العامة لحماية البيانات، قانون الذكاء الاصطناعي) ومتطلب تقني (يتطلب تدريب النموذج معالجة مسبقة متسقة). يلبي الإعداد كلاهما في نفس الوقت.

ستبحث CNIL وغيرها من الهيئات التنظيمية عن أدلة على إخفاء الهوية المنهجي والمتسق في ممارسات بيانات تدريب الذكاء الاصطناعي. إن تطبيق إعداد بشكل موحد عبر جميع تحضيرات بيانات التدريب هو أقوى دليل متاح.

المصادر:

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.