By · Last updated 2026-06-04

العودة إلى المدونةتقني

الخصوصية القابلة للتكرار: الإعدادات المسبقة لفرق التعلم الآلي

يجب أن يكون إخفاء هوية بيانات تدريب التعلم الآلي متسقاً وقابلاً للتكرار. إذا طبّق عالما البيانات أ وب أنواعاً مختلفة من الكيانات، تصبح مجموعات بيانات التدريب متعارضة.

June 4, 20266 دقيقة قراءة
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

الخصوصية القابلة للتكرار: لماذا تحتاج فرق التعلم الآلي إلى إعدادات مسبقة لا وثائق فقط

وافق مسؤول حماية البيانات على خطة الإخفاء. تغطي أربعة عناصر: الأسماء والبريد الإلكتروني وأرقام الهاتف وتواريخ الميلاد. الأسلوب هو الاستبدال. الخطة في أربع صفحات وموجودة في ويكي الامتثال.

قرأها اثنا عشر عالم بيانات في الاجتماع التمهيدي. كل واحد ضبط الأداة باستقلالية. بعضهم أضاف المعرّفات الوطنية. بعضهم أضاف عناوين IP. بعضهم تحول إلى الإخفاء. بعد ثلاثة أشهر، المجموعات غير متسقة.

فحصت CNIL عدة شركات ذكاء اصطناعي عام 2024. المشكلة: الاستخدام غير السليم للبيانات الشخصية في مجموعات النماذج. لم تسأل فقط عما إذا حدث الإخفاء. سألت عن مدى اتساق تطبيقه.

الوثائق ضرورية. لكنها ليست كافية. الإعداد المسبق هو الحل.

لماذا تحتاج مجموعات نماذج التعلم الآلي إلى ضبط خاص بها

بناء مجموعات النماذج له متطلبات فريدة لا تشاركها معالجة المستندات العامة.

الاستبدال لا الإخفاء. النماذج المدربة على نص يصبح فيه الأسماء [REDACTED] تتعلم هذا الرمز باعتباره علامة موضع اسم. هذا يضر النموذج. الاستبدال يحوّل «جون سميث» إلى «داود شن»، فيرى النموذج أنماط أسماء حقيقية لا رمز قناع.

النهج ذاته لجميع السجلات. مجموعة يُستبدل فيها 70% من الأسماء ويُخفى 30% ترسل إشارة مختلطة. يجب أن تمر كل سجل عبر الخطوات ذاتها.

قائمة الكيانات ذاتها. إذا احتوت المجموعة على بيانات صحية، فإن إزالة الأسماء مع إبقاء تواريخ الميلاد في بعض السجلات يخلق ثغرات. يجب على عالمي البيانات الاثني عشر إزالة الأنواع ذاتها.

لا إزالة مفرطة. إزالة تواريخ هي طوابع زمنية — لا تواريخ ميلاد — تقلص جودة المجموعة دون أي مكسب في الامتثال. الإعداد المسبق المعتمد يحدد بدقة العناصر المراد إزالتها.

مخرجات قابلة للتكرار. إذا وجب إعادة تشغيل المجموعة — مثلاً بعد اكتشاف نوع كيان فائت — فالإعداد المسبق يعطي النتيجة ذاتها في كل مرة. الضبط العشوائي لا يفعل ذلك.

مشكلة عالمي البيانات الاثني عشر

فريق تعلم آلي في شركة تقنية مالية أوروبية يستخدم مجموعات من سجلات العملاء. وافق مسؤول حماية البيانات على الغرض — الكشف عن الاحتيال — بقاعدة واحدة: يجب استبدال جميع أسماء العملاء والبريد الإلكتروني وأرقام الهاتف ومعرّفات الدفع قبل بدء العمل على النموذج.

بدون إعدادات مسبقة:

  • الشخص 1 يزيل الأسماء والبريد الإلكتروني وأرقام الهاتف لكن يفوّت معرّفات الدفع
  • الشخص 2 يشمل معرّفات الدفع لكن يستخدم الإخفاء لا الاستبدال
  • الشخص 3 يتبع وثيقة الخطة بدقة
  • الأشخاص 4-12 يتباينون

المجموعة المدمجة غير ملتزمة جزئياً ومعالَجة بإفراط جزئياً. لا يستطيع مسؤول حماية البيانات اعتمادها.

مع إعداد مسبق معتمد من مسؤول حماية البيانات:

  • يُنشئ مسؤول حماية البيانات «تطوير التعلم الآلي — الكشف عن الاحتيال» بأنواع كيانات دقيقة وأسلوب الاستبدال
  • يصل الإعداد المسبق إلى الاثني عشر شخصاً بقاعدة واحدة: استخدمه لجميع أعمال المجموعة
  • لا أحد يستطيع تغيير الإعداد المسبق دون موافقة مسؤول حماية البيانات

كل شخص ينتج الآن المخرجات ذاتها. المجموعة المدمجة متسقة. تدقيق الذكاء الاصطناعي السنوي يمر بصفر نتائج. السنة السابقة كانت فيها ثلاث نتائج من أعمال مجموعة غير متسقة.

GDPR وقانون الذكاء الاصطناعي

محدَّث لعام 2026

دخل قانون الذكاء الاصطناعي الأوروبي حيز التنفيذ الكامل في أغسطس 2024. يضيف قواعد لأنظمة الذكاء الاصطناعي التي تستخدم البيانات الشخصية في أعمال النماذج. يجب على أنظمة الذكاء الاصطناعي عالية المخاطر توثيق مجموعاتها، بما يشمل الإخفاء المطبَّق.

المادة 5(1)(ب) من GDPR — قاعدة تحديد الغرض — تحظر استخدام البيانات الشخصية بدون أساس قانوني واضح. ركّزت قضايا CNIL لعام 2024 على هذه الثغرة: بيانات جُمعت لخدمة واحدة استُخدمت في أعمال النماذج بدون أساس صحيح أو إخفاء.

تساعد الإعدادات المسبقة على استيفاء كلتا مجموعتي القواعد:

  • اسم الإعداد المسبق وضبطه: الأسلوب الموثق
  • سجلات المعالجة: إثبات تطبيق الأسلوب
  • موافقة مسؤول حماية البيانات: سجل توقيع على الضبط

هذا يُنشئ مسار التدقيق الذي يستلزمه كلا القانونين. للاطلاع على التزامات المادة 10 بالتفصيل، انظر دليل بيانات التدريب وفق قانون الذكاء الاصطناعي الأوروبي.

ضبط الإعداد المسبق لمجموعات نماذج NLP

الأنواع المُدرَجة في معظم مجموعات نماذج NLP:

  • PERSON — استبدال بأسماء مماثلة
  • EMAIL_ADDRESS — استبدال بعناوين اصطناعية
  • PHONE_NUMBER — استبدال بأرقام اصطناعية
  • CREDIT_CARD / IBAN — استبدال أو إخفاء
  • LOCATION — استبدال بأماكن مماثلة إذا كان الموقع مهماً؛ إخفاء إذا لم يكن
  • DATE_OF_BIRTH — إخفاء؛ تجميع العمر في الغالب مطلوب

الأنواع المحذوفة في الغالب:

  • التواريخ العامة — الطوابع الزمنية تساعد نماذج التعامل مع الزمن
  • أسماء المنظمات — تساعد نماذج الكيانات المسماة
  • عناوين URL — تساعد نماذج الروابط والمراجع

يحدد قائد التعلم الآلي ومسؤول حماية البيانات هذه القواعد في الإعداد المسبق المعتمد. يطبّقها أعضاء الفريق. لا يتخذون خيارات ضبط.

الإعدادات المسبقة بوصفها ذاكرة مؤسسية

قبل الإعدادات المسبقة. عاش ضبط الكيانات الصحيح في أذهان ثلاثة علماء بيانات مرّوا بمراجعة الامتثال. اثنان منهم غادرا في الربع الثالث، وذهبت المعرفة معهم.

بعد الإعدادات المسبقة. يعيش الضبط في «تطوير التعلم الآلي — سجلات العملاء الإصدار 2.1». يُظهر سجل الإصدارات متى أُنشئ، ومن وافق عليه، وما الذي تغيّر من الإصدار 2.0. أعضاء الفريق الجدد يستخدمون الإعداد المسبق ويحصلون على المعرفة المضمّنة فيه.

أضاف الإصدار 2.1 اكتشاف IBAN بعد أن وجدت مراجعة أنه مفقود. اعتُمد الإصدار 2.0 في فبراير 2025. السجل مكتمل.

للاطلاع على كيفية عمل سجلات المعالجة وتدفقات مراجعة مسؤول حماية البيانات، انظر دليل إخفاء هوية بيانات التدريب وفق GDPR للتعلم الآلي.

الإعدادات المسبقة في مقابل نمط CNIL

حدّدت قضايا CNIL للذكاء الاصطناعي عام 2024 نمطاً واضحاً: لا تسأل فقط عما أُزيل بل عن كيفية إدارته. الإعداد المسبق المشترك مع سجل موافقة مسؤول حماية البيانات وسجلات المعالجة يُجيب على هذا مباشرة.

الضبط العشوائي لا يفعل ذلك. الثغرة ذاتها موجودة في قضايا هيئات حماية البيانات الأوروبية الأخرى التي تتبع منطق CNIL. لمزيد من المعلومات حول نهج CNIL للذكاء الاصطناعي، انظر دليل امتثال CNIL GDPR والذكاء الاصطناعي.

خلاصة

الوثائق تخبر أعضاء الفريق بما يجب فعله. الإعدادات المسبقة تجعل تطبيقه بالطريقة ذاتها في كل مرة سهلاً وقابلاً للإنفاذ.

بالنسبة لمجموعات نماذج التعلم الآلي، الاتساق ضرورة قانونية وتقنية في آنٍ واحد. الإعداد المسبق يلبي الضرورتين معاً.

hيئات حماية البيانات التي تفحص ممارسات الذكاء الاصطناعي تريد أدلة على الإخفاء الموحد. إعداد مسبق مطبَّق بالطريقة ذاتها عبر جميع أعمال المجموعة هو أوضح إثبات يمكنك تقديمه.

المصادر

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.