CNIL فرانسه: الزامات فنی ابزارهای PII مراجع حفاظت داده
CNIL فرانسه مطالبهگرترین نهاد داده در اتحادیه اروپا است. بیشتر ناظران اروپایی قوانین کلی مینویسند اما CNIL فراتر میرود: راهنماهای فنی دقیق بهنام recommandations منتشر میکند که معیارهای دقیقی برای ناشناسسازی و استفاده از داده در هوش مصنوعی تعیین میکنند.
اخطارهای CNIL در سال ۲۰۲۴ اغلب ضعف ناشناسسازی در سیستمهای هوش مصنوعی را مطرح کردند. این نهاد در سال ۲۰۲۳ اعلام رسیدگی به ۱۶٬۴۳۳ شکایت کرد — ۴۳ درصد بیشتر از سال ۲۰۲۲.
راهنمای CNIL سیاست اروپایی را شکل میدهد
متون فنی CNIL بهگستردگی توسط دیگر مراجع حفاظت داده اروپایی ارجاع داده میشوند. دو راهنما بیشترین اهمیت را دارند:
راهنمای عملی ناشناسسازی (۲۰۲۳): این راهنما k-anonymity، l-diversity و حریم خصوصی دیفرانسیل را پوشش میدهد و نحوه استفاده از هر روش بر روی دادههای فرانسوی را نشان میدهد. IMY سوئد و دیگر نهادهای اروپایی آن را در قوانین خود ارجاع میدهند.
راهنمای سیستمهای هوش مصنوعی (۲۰۲۴): CNIL شش نوع داده را که باید پیش از آموزش هوش مصنوعی با آنها برخورد شود فهرست کرده است. هیچ مرجع حفاظت داده اروپایی دیگری تا این حد درباره هوش مصنوعی پیش نرفته است.
قوانین کوکی: راهنمای کوکی CNIL بالاترین معیار فنی برای ابزارهای رضایت در اتحادیه اروپا را تعیین میکند و بهطور مکرر بهروزرسانی میشود.
NIR: حساسترین شناسه فرانسه
Numéro d'Inscription au Répertoire (NIR) — که بهنام numéro de sécurité sociale هم شناخته میشود — یک شماره تأمین اجتماعی ۱۵ رقمی فرانسوی است.
فرمت آن: S AA MM DD CCC OOO K
- S — ۱ رقم: جنسیت
- AA — سال تولد
- MM — ماه تولد
- DD — استان تولد (۰۱–۹۵، 2A/2B برای کرس، ۹۷–۹۹ خارج از کشور، ۹۹ خارجی)
- CCC — کد شهرداری
- OOO — ترتیب تولد
- K — کلید کنترل ۲ رقمی (97 − (NIR mod 97))
NIR در یک شماره، جنسیت، تاریخ تولد و محل تولد را رمزگذاری میکند. CNIL آن را پُرخطر میداند و نیازمند همان مراقبتی میداند که دادههای دسته خاص تحت ماده ۹ GDPR نیاز دارند.
چرا ابزارها NIR را از دست میدهند: ابزارهای NLP عمومی به سه دلیل در تشخیص NIR شکست میخورند. اول، ۱۵ رقم (که اغلب بدون فاصله نوشته میشوند) شبیه سایر اعداد بلند هستند. دوم، ارقام ۷ تا ۱۱ کد استان هستند — ابزارهایی که بررسی mod-97 را نادیده میگیرند، مثبت کاذب عبور میدهند. سوم، استانهای کرس از 2A و 2B استفاده میکنند، نه ارقام خالص — ابزارهایی که فقط برای الگوهای عددی ساخته شدهاند اینجا شکست میخورند.
شناسایی خوب NIR به سه چیز نیاز دارد: بررسی کلید mod-97، یک کدبوک جغرافیایی و قوانین آگاه از کرس.
برای درک اینکه پوشش شناسه چگونه در یک پشته امنیتی GDPR جا میگیرد، به نمای کلی انطباق امنیتی مراجعه کنید.
SIREN و SIRET: شناسههای کسبوکار در پروندههای شخصی
SIREN: یک شناسه شرکت فرانسوی ۹ رقمی با رقم کنترل Luhn. در تمام اسناد تجاری فرانسوی ظاهر میشود.
SIRET: یک شماره ۱۴ رقمی که از SIREN (۹ رقم) بهعلاوه یک کد شعبه (۵ رقم) تشکیل شده است. SIRET یک محل کار و SIREN یک شرکت را مشخص میکند.
پروندههای کسبوکار اغلب شمارههای SIRET را در کنار نام کارمندان دارند. CNIL SIRET بهعلاوه یک نام را داده شخصی میداند. این ترکیب قوانین GDPR را حتی بدون فیلد داده شخصی جداگانه فعال میکند.
شش مرحله ناشناسسازی برای آموزش هوش مصنوعی
راهنمای هوش مصنوعی CNIL در سال ۲۰۲۴ شش نوع داده را پوشش میدهد که پیش از استفاده از سوابق شخصی فرانسوی در آموزش هوش مصنوعی باید رسیدگی شوند:
۱. حذف شناسههای مستقیم — نامها، NIR، SIREN باید جایگزین یا حذف شوند ۲. تعمیم شناسههای شبهمستقیم — سن، استان، حرفه میتوانند ترکیب شوند تا افراد را بازشناسی کنند؛ دقت آنها را کاهش دهید ۳. افزودن نویز به اعداد — فیلدهای عددی به نویز کالیبرهشده برای جلوگیری از استنتاج نیاز دارند ۴. بررسی k-anonymity — هر فرد باید حداقل مثل k-1 نفر دیگر بهنظر برسد؛ CNIL به k ≥ 5 اشاره میکند ۵. بررسی l-diversity — ویژگیهای حساس باید در هر گروه متنوع باشند ۶. اجرای بررسی ریسک بازشناسایی — از یک روش مستند پیش از هر انتشار داده استفاده کنید
حذف NIR و نام کامل بهتنهایی کافی نیست. CNIL این را در اجرا یافته است. شناسههای شبهمستقیمی مثل کد پستی و تخصص پزشکی هم نیاز به رسیدگی دارند.
برای اینکه بدانید ممیزیهای DPA فرانسوی چه سوابقی انتظار دارند، به راهنمای انطباق GDPR ما مراجعه کنید.
زمینه زبانی برای شناسایی PII فرانسوی
فرانسه چندین زمینه زبانی دارد که بر شناسایی تأثیر میگذارند:
فرانسوی استاندارد زبان تمام اسناد رسمی است. مدلهای NER باید حروف با علامتدار را پشتیبانی کنند: é، è، ê، ë، à، â، î، ô، û، ç، œ.
مناطق ماوراءبحار (DOM-TOM): مارتینیک، گوادلوپ، رئونیون، گویان و مایوت کدهای NIR در بازه ۹۷-۹۸ دارند. الگوهای نام در مناطق محلی با فرانسه قارهای متفاوت است.
آلزاس-موزل: نامهای با ریشه آلمانی و برخی فرمتهای اسناد آلمانی در سوابق فرانسوی ظاهر میشوند. مدلهایی که فقط بر روی فرانسوی استاندارد آموزش دیدهاند ممکن است این موارد را از دست بدهند.
استفاده فرامرزی: فرانسوی بلژیکی از فرمت شناسه متفاوتی استفاده میکند. ابزارهایی که در فرانسه و بلژیک استفاده میشوند به قوانین برای هر کشور نیاز دارند.
آنچه ابزار شما باید پوشش دهد
انطباق فرانسوی نیازمند چهار توانایی فنی است:
۱. NIR با بررسی mod-97 — تطبیق الگو بهتنهایی شکست میخورد. ابزارها باید بررسی کلید را اجرا کنند و کدهای 2A/2B را پشتیبانی کنند. ۲. SIREN/SIRET با بررسی Luhn — شناسههای کسبوکار در پروندههای شخصی ظاهر میشوند و ترکیبهای تحت پوشش GDPR با نام ایجاد میکنند. ۳. NER فرانسوی با پشتیبانی کامل از حروف با علامتدار — باید نامهای مرکب (Jean-Pierre)، ذرات اسمی (de، du، des) و کاراکترهای با علامتدار را پشتیبانی کند. ۴. فرآیند ششمرحلهای مستند — هر خط لوله آموزش هوش مصنوعی بر روی دادههای فرانسوی به سابقه مکتوب برای هر فعالیت ناشناسسازی نیاز دارد.