CNIL فرانس: DPA PII ٹول کی ضروریات
فرانس کا CNIL EU کا سب سے مطالبہ کرنے والا ڈیٹا ادارہ ہے۔ زیادہ تر EU ریگولیٹرز وسیع قواعد لکھتے ہیں۔ CNIL آگے جاتا ہے۔ یہ recommandations نامی درست تکنیکی رہنمائی شائع کرتا ہے۔ یہ گمنامی اور AI ڈیٹا کے استعمال کے لیے درست معیارات متعین کرتے ہیں۔
2024 میں CNIL کے نوٹسز اکثر AI نظاموں میں کمزور گمنامی کا حوالہ دیتے تھے۔ ایجنسی نے 2023 میں 16,433 شکایات موصول کیں۔ یہ 2022 کے مقابلے میں 43٪ زیادہ تھا۔
CNIL رہنمائی EU پالیسی کو شکل دیتی ہے
CNIL کے تکنیکی متون کو دیگر EU DPAs کثرت سے نقل کرتے ہیں۔ دو رہنمائیاں سب سے زیادہ اہمیت رکھتی ہیں۔
گمنامی کا عملی رہنما (2023): یہ رہنما k-anonymity، l-diversity، اور differential privacy کا احاطہ کرتا ہے۔ یہ دکھاتا ہے کہ فرانسیسی ڈیٹا پر ہر طریقہ کیسے استعمال کریں۔ سویڈن کا IMY اور دیگر EU ادارے اسے اپنے قواعد میں نقل کرتے ہیں۔
AI نظاموں کی رہنمائی (2024): CNIL چھ ڈیٹا اقسام درج کرتا ہے جن سے AI تربیت میں نمٹنا ضروری ہے۔ کسی اور EU DPA نے AI پر اس حد تک نہیں جایا۔
کوکی قواعد: CNIL کی کوکی رہنمائی EU میں رضامندی ٹولز کے لیے سب سے اونچا تکنیکی معیار متعین کرتی ہے۔ یہ اکثر اپ ڈیٹ ہوتی ہے۔
NIR: فرانس کا سب سے حساس شناخت کنندہ
Numéro d'Inscription au Répertoire (NIR) — جسے numéro de sécurité sociale بھی کہتے ہیں — ایک 15 ہندسی فرانسیسی سوشل سیکیورٹی نمبر ہے۔
اس کا فارمیٹ ہے: S AA MM DD CCC OOO K
- S — 1 ہندسہ: جنس
- AA — پیدائش کا سال
- MM — پیدائش کا مہینہ
- DD — پیدائش کا ضلع (01–95، کورسیکا کے لیے 2A/2B، 97–99 بیرون ملک، 99 غیر ملکی)
- CCC — بلدیہ کوڈ
- OOO — پیدائشی ترتیب
- K — 2 ہندسی چیک کلید (97 − (NIR mod 97))
NIR ایک نمبر میں جنس، پیدائش کی تاریخ، اور پیدائشی مقام رکھتا ہے۔ CNIL اسے اعلیٰ خطرے کے طور پر دیکھتا ہے۔ اسے GDPR آرٹیکل 9 کے تحت خصوصی زمرے کے ڈیٹا جیسی ہی دیکھ بھال کی ضرورت ہے۔
ٹولز NIR کیوں نظر انداز کرتے ہیں: عام NLP ٹولز تین وجوہات سے NIR میں ناکام رہتے ہیں۔ پہلی، 15 ہندسے (اکثر بغیر خلاء کے لکھے ہوئے) دوسرے لمبے نمبروں جیسے لگتے ہیں۔ دوسری، ہندسے 7–11 ضلع کوڈ رکھتے ہیں۔ جو ٹولز mod-97 چیک چھوڑتے ہیں وہ غلط مثبت گزرنے دیتے ہیں۔ تیسری، کورسیکن اضلاع 2A اور 2B استعمال کرتے ہیں، خالص ہندسے نہیں۔ صرف عددی پیٹرن کے لیے بنائے گئے ٹولز یہاں ناکام ہوتے ہیں۔
اچھی NIR شناخت کو تین چیزوں کی ضرورت ہے: mod-97 کلید چیک، جغرافیائی کوڈ بک، اور کورسیکا سے واقف قواعد۔
دیکھیں کہ شناخت کنندہ کوریج GDPR حفاظتی اسٹیک میں کیسے فٹ ہوتی ہے سیکیورٹی تعمیل جائزہ میں۔
SIREN اور SIRET: ذاتی فائلوں میں کاروباری IDs
SIREN: Luhn چیک ہندسے کے ساتھ ایک 9 ہندسی فرانسیسی کمپنی ID۔ یہ تمام فرانسیسی تجارتی دستاویزات میں ظاہر ہوتا ہے۔
SIRET: SIREN (9 ہندسے) اور ایک قیام کوڈ (5 ہندسے) سے بنا ایک 14 ہندسی نمبر۔ SIRET ایک سائٹ کا نام لیتا ہے۔ SIREN کمپنی کا نام لیتا ہے۔
کاروباری فائلیں اکثر عملے کے ناموں کے ساتھ SIRET نمبر رکھتی ہیں۔ CNIL SIRET کو نام کے ساتھ ذاتی ڈیٹا کے طور پر دیکھتا ہے۔ وہ جوڑا GDPR قواعد کو متحرک کرتا ہے یہاں تک کہ بغیر کسی الگ ذاتی ڈیٹا فیلڈ کے۔
AI تربیت کے لیے گمنامی کے چھ اقدامات
CNIL کی 2024 AI رہنمائی چھ ڈیٹا اقسام کو کور کرتی ہے۔ AI تربیت میں فرانسیسی ذاتی ریکارڈ استعمال کرنے سے پہلے ہر ایک سے نمٹنا ضروری ہے:
- براہ راست شناخت کنندگان ہٹائیں — نام، NIR، SIREN کو تبدیل یا ہٹانا ضروری ہے
- نیم شناخت کنندگان کو عام بنائیں — عمر، ضلع، پیشہ مل کر لوگوں کی دوبارہ شناخت کر سکتے ہیں؛ ان کی درستگی کم کریں
- عددی فیلڈز میں شور شامل کریں — عددی فیلڈز کو اندازہ لگانے کو روکنے کے لیے کیلیبریٹ شور کی ضرورت ہے
- k-anonymity جانچیں — ہر شخص کو کم از کم k-1 دوسروں جیسا لگنا چاہیے؛ CNIL k ≥ 5 بتاتا ہے
- l-diversity جانچیں — حساس خصوصیات کو ہر گروپ کے اندر مختلف ہونا چاہیے
- دوبارہ شناخت خطرے کی جانچ چلائیں — کسی بھی ڈیٹا جاری کرنے سے پہلے ایک دستاویزی طریقہ استعمال کریں
صرف NIR اور پورا نام ہٹانا کافی نہیں ہے۔ CNIL نے نفاذ میں یہ پایا ہے۔ ZIP کوڈ اور طبی خصوصیت جیسے نیم شناخت کنندگان کو بھی علاج کی ضرورت ہے۔
ہماری GDPR تعمیل رہنمائی ان ریکارڈز کا احاطہ کرتی ہے جو فرانسیسی DPA آڈٹ دیکھنا چاہتے ہیں۔
فرانسیسی PII شناخت کے لیے زبانی سیاق و سباق
فرانس کے کئی لسانی سیاق و سباق ہیں جو شناخت پر اثر انداز ہوتے ہیں۔
معیاری فرانسیسی تمام سرکاری دستاویزات کی زبان ہے۔ NER ماڈلز کو لہجہ دار حروف سنبھالنے چاہئیں: é، è، ê، ë، à، â، î، ô، û، ç، œ۔
بیرونی علاقے (DOM-TOM): مارٹینک، گواڈیلوپ، ریونیاں، گویانا، اور مایوٹ 97–98 رینج میں NIR کوڈز استعمال کرتے ہیں۔ مقامی نام کے پیٹرن مین لینڈ فرانس سے مختلف ہوتے ہیں۔
Alsace-Moselle: جرمن نژاد نام اور کچھ جرمن دستاویز فارمیٹس فرانسیسی ریکارڈز میں ظاہر ہوتے ہیں۔ صرف معیاری فرانسیسی پر تربیت یافتہ ماڈل یہ نظر انداز کر سکتے ہیں۔
سرحد پار استعمال: بیلجین فرانسیسی ایک مختلف ID فارمیٹ استعمال کرتی ہے۔ فرانس اور بیلجیم میں استعمال ہونے والے ٹولز کو ہر ایک کے لیے قواعد کی ضرورت ہے۔
آپ کے ٹول کو کیا کور کرنا چاہیے
فرانسیسی تعمیل کے لیے چار تکنیکی صلاحیتوں کی ضرورت ہے:
- mod-97 چیک کے ساتھ NIR — اکیلا پیٹرن میچنگ ناکام ہوتا ہے۔ ٹولز کو کلید چیک چلانی ہوگی اور 2A/2B کوڈز سنبھالنے ہوں گے۔
- Luhn چیک کے ساتھ SIREN/SIRET — کاروباری IDs ذاتی فائلوں میں ظاہر ہوتے ہیں اور GDPR کور نام کے مجموعے بناتے ہیں۔
- مکمل لہجہ معاونت کے ساتھ فرانسیسی NER — مرکب نام (Jean-Pierre)، particles (de، du، des)، اور لہجہ دار حروف سنبھالنے چاہئیں۔
- دستاویزی چھ قدمی عمل — فرانسیسی ڈیٹا پر کسی بھی AI تربیتی پائپ لائن کو ہر گمنامی سرگرمی کے لیے تحریری ریکارڈ کی ضرورت ہے۔