CNIL फ्रांस: DPA PII उपकरण आवश्यकताएं
फ्रांस का CNIL EU का सबसे कठोर डेटा निकाय है। अधिकांश EU नियामक व्यापक नियम लिखते हैं। CNIL आगे जाता है। यह recommandations नामक सटीक तकनीकी मार्गदर्शन प्रकाशित करता है। ये अनामीकरण और AI डेटा उपयोग के लिए सटीक मानक निर्धारित करते हैं।
AI प्रणालियों में कमजोर अनामीकरण का उल्लेख करते हुए 2024 में CNIL नोटिस अक्सर आए। एजेंसी ने 2023 में 16,433 शिकायतें प्राप्त कीं। यह 2022 से 43% अधिक था।
CNIL मार्गदर्शन EU नीति को आकार देता है
CNIL के तकनीकी ग्रंथ अन्य EU DPA द्वारा व्यापक रूप से उद्धृत किए जाते हैं। दो गाइड सबसे महत्वपूर्ण हैं।
Guide pratique de l'anonymisation (2023): यह गाइड k-anonymity, l-diversity और differential privacy को कवर करता है। यह दिखाता है कि फ्रांसीसी डेटा पर प्रत्येक विधि का उपयोग कैसे करें। स्वीडन का IMY और अन्य EU निकाय इसे अपने नियमों में उद्धृत करते हैं।
AI प्रणाली मार्गदर्शन (2024): CNIL छह डेटा प्रकारों की सूची देता है जिन्हें AI प्रशिक्षण में संभाला जाना चाहिए। किसी अन्य EU DPA ने AI पर इतना आगे नहीं गया है।
कुकी नियम: CNIL की कुकी मार्गदर्शिका EU में सहमति उपकरणों के लिए सबसे ऊंची तकनीकी सीमा निर्धारित करती है। इसे अक्सर अपडेट किया जाता है।
NIR: फ्रांस का सबसे संवेदनशील पहचानकर्ता
Numéro d'Inscription au Répertoire (NIR) — जिसे numéro de sécurité sociale भी कहा जाता है — एक 15-अंकीय फ्रांसीसी सामाजिक सुरक्षा नंबर है।
इसका प्रारूप है: S AA MM DD CCC OOO K
- S — 1 अंक: लिंग
- AA — जन्म वर्ष
- MM — जन्म माह
- DD — जन्म विभाग (01-95, कोर्सिका के लिए 2A/2B, 97-99 विदेश में, 99 विदेशी)
- CCC — नगर पालिका कोड
- OOO — जन्म क्रम
- K — 2-अंकीय चेक key (97 − (NIR mod 97))
NIR एक संख्या में लिंग, जन्म तारीख और जन्म स्थान रखता है। CNIL इसे उच्च-जोखिम मानता है। इसे GDPR अनुच्छेद 9 के तहत विशेष-श्रेणी डेटा के समान देखभाल की जरूरत है।
उपकरण NIR क्यों चूकते हैं: सामान्य NLP उपकरण तीन कारणों से NIR पर विफल होते हैं। पहला, 15 अंक (अक्सर बिना गैप के लिखे) अन्य लंबी संख्याओं जैसे दिखते हैं। दूसरा, अंक 7-11 एक विभाग कोड रखते हैं। जो उपकरण mod-97 जांच छोड़ते हैं वे गलत सकारात्मक परिणाम देते हैं। तीसरा, कोर्सिकन विभाग 2A और 2B का उपयोग करते हैं, शुद्ध अंकों का नहीं। केवल-संख्यात्मक पैटर्न के लिए बने उपकरण यहाँ विफल हो जाते हैं।
अच्छी NIR पहचान के लिए तीन चीजें चाहिए: mod-97 key जांच, एक भौगोलिक कोडबुक और कोर्सिका-जागरूक नियम।
देखें हमारा सुरक्षा अनुपालन अवलोकन कि पहचानकर्ता कवरेज GDPR सुरक्षा स्टैक में कैसे फिट बैठता है।
SIREN और SIRET: व्यक्तिगत फ़ाइलों में व्यावसायिक ID
SIREN: एक Luhn चेक अंक के साथ 9-अंकीय फ्रांसीसी कंपनी ID। यह सभी फ्रांसीसी वाणिज्यिक दस्तावेजों में दिखाई देती है।
SIRET: SIREN (9 अंक) और एक स्थापना कोड (5 अंक) से बना 14-अंकीय नंबर। SIRET एक साइट की पहचान करता है। SIREN कंपनी की पहचान करता है।
व्यावसायिक फ़ाइलें अक्सर कर्मचारी नामों के साथ SIRET नंबर रखती हैं। CNIL SIRET और एक नाम को व्यक्तिगत डेटा मानता है। वह जोड़ी बिना किसी अलग व्यक्तिगत डेटा फ़ील्ड के GDPR नियमों को सक्रिय करती है।
AI प्रशिक्षण के लिए छह अनामीकरण चरण
CNIL की 2024 AI मार्गदर्शिका छह डेटा प्रकारों को कवर करती है। AI प्रशिक्षण में फ्रांसीसी व्यक्तिगत रिकॉर्ड का उपयोग करने से पहले प्रत्येक को संभाला जाना चाहिए:
- प्रत्यक्ष पहचानकर्ता हटाएं — नाम, NIR, SIREN को बदला या हटाया जाना चाहिए
- अर्ध-पहचानकर्ताओं को सामान्यीकृत करें — उम्र, विभाग, पेशा मिलकर लोगों की पुनः पहचान कर सकते हैं; उनकी सटीकता कम करें
- संख्याओं में शोर जोड़ें — संख्यात्मक फ़ील्ड को अनुमान को रोकने के लिए कैलिब्रेटेड शोर की जरूरत है
- k-anonymity जांचें — प्रत्येक व्यक्ति कम से कम k-1 अन्य जैसा दिखना चाहिए; CNIL k ≥ 5 की ओर इशारा करता है
- l-diversity जांचें — संवेदनशील विशेषताएं प्रत्येक समूह में भिन्न होनी चाहिए
- पुनः पहचान जोखिम जांच चलाएं — किसी भी डेटा रिलीज से पहले एक दस्तावेज़ीकृत विधि का उपयोग करें
केवल NIR और पूरा नाम हटाना पर्याप्त नहीं है। CNIL ने इसे प्रवर्तन में पाया है। ZIP कोड और चिकित्सा विशेषता जैसे अर्ध-पहचानकर्ताओं को भी उपचार की जरूरत है।
हमारी GDPR अनुपालन गाइड उन रिकॉर्डों को कवर करती है जो फ्रांसीसी DPA ऑडिट देखने की उम्मीद रखते हैं।
फ्रांसीसी PII पहचान के लिए भाषाई संदर्भ
फ्रांस में कई भाषाई संदर्भ हैं जो पहचान को प्रभावित करते हैं।
मानक फ्रांसीसी सभी आधिकारिक दस्तावेजों की भाषा है। NER मॉडल को उच्चारण अक्षरों को संभालना होगा: é, è, ê, ë, à, â, î, ô, û, ç, œ।
विदेशी क्षेत्र (DOM-TOM): मार्टिनिक, गुआदेलूप, रियूनियन, गुयाना और मायोट 97-98 रेंज में NIR कोड का उपयोग करते हैं। स्थानीय नाम पैटर्न मुख्य भूमि फ्रांस से भिन्न हैं।
अल्सेस-मोसेले: जर्मन मूल के नाम और कुछ जर्मन दस्तावेज़ प्रारूप फ्रांसीसी रिकॉर्ड में दिखाई देते हैं। केवल मानक फ्रांसीसी पर प्रशिक्षित मॉडल इन्हें चूक सकते हैं।
सीमा-पार उपयोग: बेल्जियन फ्रांसीसी एक अलग ID प्रारूप का उपयोग करती है। फ्रांस और बेल्जियम में उपयोग किए जाने वाले उपकरणों को प्रत्येक के लिए नियमों की जरूरत है।
आपके उपकरण को क्या कवर करना होगा
फ्रांसीसी अनुपालन के लिए चार तकनीकी क्षमताएं चाहिए:
- mod-97 जांच के साथ NIR — पैटर्न मिलान अकेले विफल होता है। उपकरणों को key जांच चलानी होगी और 2A/2B कोड संभालने होंगे।
- Luhn जांच के साथ SIREN/SIRET — व्यावसायिक ID व्यक्तिगत फ़ाइलों में दिखाई देती हैं और GDPR-कवर नाम संयोजन बनाती हैं।
- पूर्ण उच्चारण समर्थन के साथ फ्रांसीसी NER — संयुक्त नाम (Jean-Pierre), कण (de, du, des) और उच्चारण वर्णों को संभालना होगा।
- दस्तावेज़ीकृत छह-चरण प्रक्रिया — फ्रांसीसी डेटा पर किसी भी AI प्रशिक्षण पाइपलाइन में प्रत्येक अनामीकरण गतिविधि का लिखित रिकॉर्ड चाहिए।