By · Last updated 2026-06-05

العودة إلى المدونةالامتثال لـ GDPR

هيئة CNIL الفرنسية: متطلبات أدوات PII لدى سلطات حماية البيانات

معالجة CNIL لـ16,433 شكوى في 2023 (+43%). 63% من قرارات CNIL تستند إلى إخفاء هوية غير كافٍ في أنظمة الذكاء الاصطناعي. تفوّت 78% من الأدوات العامة اكتشاف رقم NIR (رقم الضمان الاجتماعي الفرنسي).

June 5, 20269 دقيقة قراءة
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

هيئة CNIL الفرنسية: متطلبات أدوات PII لدى سلطات حماية البيانات

تُعدّ الهيئة الوطنية الفرنسية لحماية المعطيات والحريات (CNIL) الأكثر صرامةً من بين الجهات الأوروبية لحماية البيانات. في حين تُصدر معظم الجهات الأوروبية مبادئ توجيهية عامة، تذهب CNIL أبعد من ذلك بنشر توجيهات تقنية دقيقة تُعرف بـrecommandations، تُحدد معايير صارمة لإخفاء الهوية واستخدام البيانات في الذكاء الاصطناعي.

استندت كثير من قرارات CNIL في عام 2024 إلى ضعف إخفاء الهوية في أنظمة الذكاء الاصطناعي. وقد استقبلت الهيئة 16,433 شكوى في 2023، أي بزيادة قدرها 43% مقارنةً بعام 2022.

توجيهات CNIL تُشكّل السياسة الأوروبية

تتصدّر نصوص CNIL التقنية مراجع سلطات حماية البيانات الأوروبية الأخرى. ثمة وثيقتان محوريتان:

دليل الممارسة الجيدة لإخفاء الهوية (2023): يتناول هذا الدليل k-anonymity وl-diversity والخصوصية التفاضلية، ويوضح كيفية تطبيق كل منهج على البيانات الفرنسية. تستشهد به هيئة IMY السويدية وسلطات أوروبية أخرى في قواعدها الخاصة.

توجيهات أنظمة الذكاء الاصطناعي (2024): تُحدد CNIL ستة أنواع من البيانات يجب معالجتها في بيانات تدريب الذكاء الاصطناعي — وهو مستوى من التفصيل لم تبلغه أي سلطة أوروبية أخرى في ما يخص الذكاء الاصطناعي.

قواعد ملفات تعريف الارتباط: تضع CNIL أعلى سقف تقني لأدوات الموافقة في الاتحاد الأوروبي، وتُحدّثه بانتظام.

رقم NIR: المعرّف الفرنسي الأكثر حساسية

رقم التسجيل في السجل (NIR) — المعروف أيضاً بـnuméro de sécurité sociale — هو رقم الضمان الاجتماعي الفرنسي المكوّن من 15 خانة.

تنسيقه: S AA MM DD CCC OOO K

  • S — خانة واحدة: الجنس
  • AA — سنة الميلاد
  • MM — شهر الميلاد
  • DD — الدائرة الجغرافية (01–95، 2A/2B لكورسيكا، 97–99 للمناطق الخارجية، 99 للأجانب)
  • CCC — رمز البلدية
  • OOO — ترتيب الميلاد
  • K — مفتاح تحقق من خانتين (97 − (NIR mod 97))

يختزن الرقم الواحد معلومات الجنس وتاريخ الميلاد ومكانه. تُصنّفه CNIL بيانات عالية الخطورة وتستوجب منحه العناية ذاتها المطلوبة للبيانات ذات الفئة الخاصة بموجب المادة 9 من GDPR.

لماذا تُخفق الأدوات في اكتشاف NIR: تفشل أدوات NLP العامة في اكتشاف NIR لثلاثة أسباب. أولاً: الأرقام الـ15 (المكتوبة أحياناً دون فواصل) تُشبه ظاهرياً أرقاماً طويلة أخرى. ثانياً: الخانات من 7 إلى 11 تحتوي على رمز الدائرة الجغرافية، وتترتب على تجاهل اختبار mod-97 إيجابيات كاذبة. ثالثاً: تستخدم دائرتا كورسيكا رموز 2A و2B لا أرقاماً صرفة، فتفشل الأدوات المصمّمة للأنماط الرقمية البحتة.

يستلزم الاكتشاف السليم لرقم NIR ثلاثة عناصر: اختبار مفتاح mod-97، ومرجع جغرافي شامل، وقواعد مدركة لكورسيكا.

راجع نظرة عامة على الامتثال الأمني لمعرفة كيفية اندماج تغطية المعرّفات ضمن طبقة ضمان GDPR.

SIREN وSIRET: معرّفات الشركات في الملفات الشخصية

SIREN: رقم تعريف الشركة الفرنسية من 9 خانات مع رقم تحقق بخوارزمية Luhn، ويرد في جميع الوثائق التجارية الفرنسية.

SIRET: رقم من 14 خانة يتكوّن من SIREN (9 خانات) إضافةً إلى رمز المنشأة (5 خانات). يُعرّف SIRET بالموقع بينما يُعرّف SIREN بالشركة.

كثيراً ما تحتوي ملفات الأعمال على أرقام SIRET مقترنة بأسماء الموظفين. تُعامل CNIL الاثنين معاً بوصفهما بيانات شخصية، فتستدعي هذه التركيبة أحكام GDPR حتى في غياب حقل بيانات شخصية منفصل.

ست خطوات لإخفاء الهوية في تدريب الذكاء الاصطناعي

تتناول توجيهات CNIL للذكاء الاصطناعي الصادرة عام 2024 ستة أنواع من البيانات يجب معالجتها قبل استخدام السجلات الشخصية الفرنسية في التدريب:

  1. إزالة المعرّفات المباشرة — يجب استبدال الأسماء وNIR وSIREN أو حذفها
  2. تعميم شبه المعرّفات — العمر والدائرة الجغرافية والمهنة قد تتضافر في إعادة التعريف؛ يجب تقليل دقتها
  3. إضافة ضوضاء إلى الأرقام — تستدعي الحقول الرقمية إضافة ضوضاء معايرة لمنع الاستنتاج
  4. اختبار k-anonymity — يجب أن يشبه كل فرد k-1 آخرين على الأقل؛ توصي CNIL بـk ≥ 5
  5. اختبار l-diversity — يجب أن تتنوع السمات الحساسة داخل كل مجموعة
  6. إجراء فحص خطر إعادة التعريف — استخدام منهج موثّق قبل أي إصدار للبيانات

إزالة NIR والاسم الكامل وحدها لا تكفي. أكّدت CNIL ذلك في قرارات تطبيقها. شبه المعرّفات كالرمز البريدي والتخصص الطبي تحتاج هي الأخرى إلى معالجة.

يتناول دليل الامتثال للائحة GDPR السجلات التي تتوقع تدقيقات CNIL إيجادها.

السياق اللغوي للكشف عن البيانات الشخصية الفرنسية

ثمة سياقات لغوية متعددة في فرنسا تؤثر على عمليات الكشف.

الفرنسية المعيارية هي لغة جميع الوثائق الرسمية. يجب على نماذج NER التعامل مع الحروف المُشكَّلة: é، è، ê، ë، à، â، î، ô، û، ç، œ.

المناطق الخارجية (DOM-TOM): مارتينيك وغوادلوب وريونيون وغويانا ومايوت تستخدم رموز NIR في النطاق 97–98. أنماط الأسماء المحلية تختلف عن فرنسا الأصلية.

الألزاس-موزيل: تظهر أسماء ذات أصل ألماني وبعض تنسيقات الوثائق الألمانية في السجلات الفرنسية. قد تُخفق النماذج المدرَّبة على الفرنسية المعيارية فحسب في اكتشافها.

الاستخدام العابر للحدود: تستخدم الفرنسية البلجيكية تنسيق هوية مختلفاً. الأدوات المستخدمة في فرنسا وبلجيكا تحتاج قواعد لكل منهما.

ما يجب أن تغطيه أداتك

يستلزم الامتثال الفرنسي أربع قدرات تقنية:

  1. NIR مع اختبار mod-97 — مطابقة الأنماط وحدها تفشل. يجب على الأدوات تشغيل اختبار المفتاح والتعامل مع رموز 2A/2B.
  2. SIREN/SIRET مع اختبار Luhn — تظهر معرّفات الأعمال في الملفات الشخصية وتُنشئ تركيبات مشمولة بـGDPR مع الأسماء.
  3. NER بالفرنسية مع دعم كامل للتشكيل — يجب التعامل مع الأسماء المركّبة (Jean-Pierre)، والجسيمات (de, du, des)، والأحرف المُشكَّلة.
  4. عملية موثّقة من ست خطوات — تستلزم أي قناة تدريب على بيانات فرنسية سجلاً مكتوباً لكل نشاط من أنشطة إخفاء الهوية.

المصادر

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.