CNIL ফ্রান্স: DPA PII সরঞ্জাম প্রয়োজনীয়তা
ফ্রান্সের CNIL হলো EU-র সবচেয়ে চাহিদাসম্পন্ন ডেটা সংস্থা। বেশিরভাগ EU নিয়ন্ত্রক বিস্তৃত নিয়ম লেখে। CNIL আরও এগিয়ে যায়। এটি recommandations নামে সুনির্দিষ্ট প্রযুক্তিগত নির্দেশিকা প্রকাশ করে। এগুলো বেনামীকরণ এবং AI ডেটা ব্যবহারের জন্য সঠিক মান নির্ধারণ করে।
২০২৪ সালের CNIL নোটিশগুলোতে প্রায়ই AI সিস্টেমে দুর্বল বেনামীকরণ উল্লেখ করা হয়েছিল। সংস্থাটি ২০২৩ সালে ১৬,৪৩৩টি অভিযোগ নিয়েছিল। এটি ২০২২ সালের চেয়ে ৪৩% বেশি।
CNIL নির্দেশিকা EU নীতি গঠন করে
CNIL-এর প্রযুক্তিগত পাঠ্যগুলি অন্যান্য EU DPA-গুলি ব্যাপকভাবে উদ্ধৃত করে। দুটি গাইড সবচেয়ে গুরুত্বপূর্ণ।
Guide pratique de l'anonymisation (২০২৩): এই গাইড k-anonymity, l-diversity এবং differential privacy কভার করে। এটি ফরাসি ডেটায় প্রতিটি পদ্ধতি ব্যবহার করার উপায় দেখায়। সুইডেনের IMY এবং অন্যান্য EU সংস্থা তাদের নিজস্ব নিয়মে এটি উদ্ধৃত করে।
AI সিস্টেম নির্দেশিকা (২০২৪): CNIL AI প্রশিক্ষণে পরিচালনা করা আবশ্যক এমন ছয়টি ডেটা প্রকার তালিকা করে। অন্য কোনো EU DPA AI-তে এতদূর যায়নি।
কুকি নিয়ম: CNIL-এর কুকি নির্দেশিকা EU-তে সম্মতি সরঞ্জামের জন্য সর্বোচ্চ প্রযুক্তিগত মান নির্ধারণ করে। এটি প্রায়ই আপডেট করা হয়।
NIR: ফ্রান্সের সবচেয়ে সংবেদনশীল শনাক্তকারী
Numéro d'Inscription au Répertoire (NIR) — যা numéro de sécurité sociale নামেও পরিচিত — একটি ১৫-সংখ্যার ফরাসি সামাজিক নিরাপত্তা নম্বর।
এর ফরম্যাট হলো: S AA MM DD CCC OOO K
- S — ১ সংখ্যা: লিঙ্গ
- AA — জন্ম বছর
- MM — জন্ম মাস
- DD — জন্ম বিভাগ (০১–৯৫, কর্সিকার জন্য 2A/2B, ৯৭–৯৯ বিদেশী, ৯৯ বিদেশী)
- CCC — পৌরসভা কোড
- OOO — জন্ম ক্রম
- K — ২-সংখ্যার চেক কী (97 − (NIR mod 97))
NIR-তে একটি নম্বরে লিঙ্গ, জন্মতারিখ এবং জন্মস্থান রয়েছে। CNIL এটিকে উচ্চ-ঝুঁকি হিসাবে বিবেচনা করে। এটির GDPR অনুচ্ছেদ ৯-এর অধীনে বিশেষ-শ্রেণীর ডেটার মতো একই যত্ন প্রয়োজন।
সরঞ্জামগুলো NIR মিস করে কেন: সাধারণ NLP সরঞ্জাম তিনটি কারণে NIR-তে ব্যর্থ হয়। প্রথমত, ১৫ সংখ্যা (প্রায়ই ফাঁক ছাড়া লেখা) অন্যান্য দীর্ঘ সংখ্যার মতো দেখায়। দ্বিতীয়ত, সংখ্যা ৭–১১ একটি বিভাগ কোড ধরে। mod-97 যাচাই এড়িয়ে যাওয়া সরঞ্জাম মিথ্যা ইতিবাচক প্রবেশ করতে দেয়। তৃতীয়ত, কর্সিকান বিভাগ 2A এবং 2B ব্যবহার করে, শুধু সংখ্যা নয়। শুধুমাত্র সংখ্যাসূচক প্যাটার্নের জন্য তৈরি সরঞ্জাম এখানে ব্যর্থ হয়।
ভালো NIR সনাক্তকরণে তিনটি জিনিস প্রয়োজন: mod-97 কী যাচাই, একটি ভৌগোলিক কোডবুক এবং কর্সিকা-সচেতন নিয়ম।
GDPR সুরক্ষা স্ট্যাকে শনাক্তকারী কভারেজ কীভাবে ফিট করে তা দেখুন আমাদের নিরাপত্তা সম্মতি ওভারভিউ-তে।
SIREN এবং SIRET: ব্যক্তিগত ফাইলে ব্যবসায়িক আইডি
SIREN: একটি Luhn চেক ডিজিট সহ ৯-সংখ্যার ফরাসি কোম্পানি আইডি। এটি সমস্ত ফরাসি বাণিজ্যিক নথিতে প্রদর্শিত হয়।
SIRET: SIREN (৯ সংখ্যা) প্লাস একটি প্রতিষ্ঠান কোড (৫ সংখ্যা) থেকে তৈরি ১৪-সংখ্যার নম্বর। SIRET একটি সাইট চিহ্নিত করে। SIREN কোম্পানি চিহ্নিত করে।
ব্যবসায়িক ফাইলে প্রায়ই কর্মীদের নামের পাশে SIRET নম্বর থাকে। CNIL SIRET প্লাস একটি নাম ব্যক্তিগত ডেটা হিসেবে বিবেচনা করে। সেই জুটি আলাদা ব্যক্তিগত ডেটা ক্ষেত্র ছাড়াও GDPR নিয়ম চালু করে।
AI প্রশিক্ষণের জন্য ছয়টি বেনামীকরণ পদক্ষেপ
CNIL-এর ২০২৪ AI নির্দেশিকা ছয়টি ডেটা প্রকার কভার করে। AI প্রশিক্ষণে ফরাসি ব্যক্তিগত রেকর্ড ব্যবহার করার আগে প্রতিটি পরিচালনা করতে হবে:
- সরাসরি শনাক্তকারী সরান — নাম, NIR, SIREN প্রতিস্থাপন বা অপসারণ করতে হবে
- কোয়াসি-শনাক্তকারী সাধারণীকরণ — বয়স, বিভাগ, পেশা একত্রিত হয়ে লোককে পুনরায় শনাক্ত করতে পারে; তাদের নির্ভুলতা কমান
- সংখ্যায় শব্দ যোগ করুন — সংখ্যাসূচক ক্ষেত্রে অনুমান আটকাতে ক্যালিব্রেটেড শব্দ প্রয়োজন
- k-anonymity যাচাই করুন — প্রতিটি ব্যক্তিকে কমপক্ষে k-1 অন্যের মতো দেখতে হবে; CNIL k ≥ ৫ নির্দেশ করে
- l-diversity যাচাই করুন — সংবেদনশীল বৈশিষ্ট্যগুলি প্রতিটি গ্রুপের মধ্যে পরিবর্তন করতে হবে
- পুনঃশনাক্তকরণ ঝুঁকি যাচাই চালান — যেকোনো ডেটা প্রকাশের আগে একটি নথিভুক্ত পদ্ধতি ব্যবহার করুন
NIR এবং পুরো নাম অপসারণ একা যথেষ্ট নয়। CNIL প্রয়োগে এটি পেয়েছে। ZIP কোড এবং মেডিকেল বিশেষত্বের মতো কোয়াসি-শনাক্তকারীরও চিকিৎসা দরকার।
আমাদের GDPR সম্মতি গাইড ফরাসি DPA অডিট প্রত্যাশিত রেকর্ড কভার করে।
ফরাসি PII সনাক্তকরণের জন্য ভাষার প্রেক্ষাপট
ফ্রান্সে বেশ কয়েকটি ভাষাগত প্রেক্ষাপট রয়েছে যা সনাক্তকরণকে প্রভাবিত করে।
মানক ফরাসি সমস্ত সরকারি নথির ভাষা। NER মডেলকে উচ্চারণযুক্ত অক্ষর পরিচালনা করতে হবে: é, è, ê, ë, à, â, î, ô, û, ç, œ।
বিদেশী অঞ্চল (DOM-TOM): মার্টিনিক, গুয়াদেলুপ, রিইউনিয়ন, গুয়ানা এবং মায়োট NIR কোড ৯৭–৯৮ পরিসরে ব্যবহার করে। স্থানীয় নাম প্যাটার্ন মূল ফ্রান্স থেকে আলাদা।
আলসাস-মোসেল: জার্মান-উৎসের নাম এবং কিছু জার্মান নথি ফরম্যাট ফরাসি রেকর্ডে দেখা যায়। শুধুমাত্র মানক ফরাসিতে প্রশিক্ষিত মডেল এগুলো মিস করতে পারে।
আন্তঃসীমান্ত ব্যবহার: বেলজিয়ান ফরাসি একটি ভিন্ন আইডি ফরম্যাট ব্যবহার করে। ফ্রান্স এবং বেলজিয়ামে ব্যবহৃত সরঞ্জামগুলির প্রতিটির জন্য নিয়ম প্রয়োজন।
আপনার সরঞ্জামকে কী কভার করতে হবে
ফরাসি সম্মতির জন্য চারটি প্রযুক্তিগত ক্ষমতা প্রয়োজন:
- mod-97 চেক সহ NIR — শুধুমাত্র প্যাটার্ন মেলানো ব্যর্থ হয়। সরঞ্জামকে কী যাচাই চালাতে হবে এবং 2A/2B কোড পরিচালনা করতে হবে।
- Luhn চেক সহ SIREN/SIRET — ব্যবসায়িক আইডি ব্যক্তিগত ফাইলে প্রদর্শিত হয় এবং GDPR-কভারড নাম সমন্বয় তৈরি করে।
- সম্পূর্ণ উচ্চারণ সমর্থন সহ ফরাসি NER — যৌগিক নাম (Jean-Pierre), কণা (de, du, des) এবং উচ্চারণযুক্ত অক্ষর পরিচালনা করতে হবে।
- নথিভুক্ত ছয়-ধাপ প্রক্রিয়া — ফরাসি ডেটায় যেকোনো AI প্রশিক্ষণ পাইপলাইনে প্রতিটি বেনামীকরণ কার্যকলাপের লিখিত রেকর্ড প্রয়োজন।