পুনরাবৃত্তিযোগ্য গোপনীয়তা: ML টিমের কেন শুধু ডকুমেন্ট নয়, প্রিসেট দরকার
DPO অ্যানোনিমাইজেশন পরিকল্পনা অনুমোদন করেছেন। এতে চারটি বিষয় অন্তর্ভুক্ত: নাম, ইমেইল, ফোন নম্বর এবং জন্ম তারিখ। পদ্ধতি হলো Replace। পরিকল্পনাটি চার পৃষ্ঠার এবং কমপ্লায়েন্স উইকিতে রাখা আছে।
বারোজন ডেটা বিজ্ঞানী কিকঅফে এটি পড়েছেন। প্রত্যেকে নিজেদের মতো টুলটি সেট আপ করেন। কেউ জাতীয় পরিচয়পত্র নম্বর যোগ করেন। কেউ IP ঠিকানা যোগ করেন। কেউ Redact-এ স্যুইচ করেন। তিন মাস পরে, ডেটাসেটগুলো আর সামঞ্জস্যপূর্ণ নয়।
CNIL ২০২৪ সালে বেশ কয়েকটি AI কোম্পানি পরীক্ষা করে। সমস্যা: মডেল ডেটাসেটে ব্যক্তিগত তথ্যের অনুপযুক্ত ব্যবহার। তারা কেবল জিজ্ঞেস করেনি অ্যানোনিমাইজেশন হয়েছে কিনা। জিজ্ঞেস করেছে কতটা সামঞ্জস্যপূর্ণভাবে প্রয়োগ করা হয়েছে।
ডকুমেন্ট দরকার। কিন্তু সেটুকুই যথেষ্ট নয়। সমাধান হলো প্রিসেট।
ML মডেল ডেটাসেটের জন্য আলাদা কনফিগারেশন কেন দরকার
মডেল ডেটাসেট তৈরির নিজস্ব বিশেষ চাহিদা আছে। সাধারণ ডকুমেন্ট অ্যানোনিমাইজেশনের সঙ্গে এর মিল নেই।
Redact নয়, Replace। যে মডেল [REDACTED] দিয়ে প্রশিক্ষিত হয়, সে ওই টোকেনকে নামের অবস্থান চিহ্নিতকারী হিসেবে শেখে। এটি মডেলের ক্ষতি করে। Replace 'John Smith'-কে 'David Chen' দিয়ে বদলে দেয়। মডেল আসল নামের ধরন দেখতে পায়। কোনো মাস্ক টোকেন দেখে না।
সব রেকর্ডে একই প্রক্রিয়া। যে ডেটাসেটে ৭০% নাম replace করা এবং ৩০% [REDACTED] করা, সেটি মিশ্র সংকেত পাঠায়। প্রতিটি রেকর্ড একই ধাপের মধ্য দিয়ে যেতে হবে।
একই এন্টিটি তালিকা। যদি ডেটাসেটে স্বাস্থ্য তথ্য থাকে এবং কিছু রেকর্ডে নাম সরানো হয় কিন্তু জন্ম তারিখ রেখে দেওয়া হয়, তাহলে ফাঁক তৈরি হয়। বারোজন ডেটা বিজ্ঞানীকে একই ধরনের তথ্য সরাতে হবে।
অতিরিক্ত সরানো নয়। টাইমস্ট্যাম্প হিসেবে থাকা তারিখ — জন্ম তারিখ নয় — সরিয়ে ফেললে কমপ্লায়েন্স লাভ ছাড়াই ডেটাসেটের গুণমান কমে যায়। অনুমোদিত প্রিসেট সঠিকভাবে জানায় কোন আইটেম সরাতে হবে।
পুনরাবৃত্তিযোগ্য আউটপুট। যদি কোনো ডেটাসেট আবার চালাতে হয় — ধরুন, একটি মিস হওয়া এন্টিটি টাইপ পাওয়া গেছে — তাহলে প্রিসেট প্রতিবার একই ফলাফল দেয়। অ্যাড-হক কনফিগ এটি পারে না।
বারোজন ডেটা বিজ্ঞানীর সমস্যা
ইউরোপের একটি ফিনটেক ML টিম গ্রাহক লগ থেকে ডেটাসেট ব্যবহার করে। DPO উদ্দেশ্য অনুমোদন করেছেন — জালিয়াতি শনাক্তকরণ — একটি নিয়মসহ: মডেল কাজ শুরুর আগে সমস্ত গ্রাহকের নাম, ইমেইল, ফোন নম্বর এবং পেমেন্ট আইডি replace করতে হবে।
প্রিসেট ছাড়া:
- ব্যক্তি ১ নাম, ইমেইল এবং ফোন নম্বর সরান — কিন্তু পেমেন্ট আইডি মিস করেন
- ব্যক্তি ২ পেমেন্ট আইডি অন্তর্ভুক্ত করেন কিন্তু Replace-এর বদলে Redact ব্যবহার করেন
- ব্যক্তি ৩ পরিকল্পনা ডকুমেন্ট সঠিকভাবে অনুসরণ করেন
- ব্যক্তি ৪-১২ ভিন্নভাবে করেন
মার্জ করা ডেটাসেট আংশিকভাবে নন-কমপ্লায়েন্ট এবং আংশিকভাবে অতিরিক্ত প্রক্রিয়াজাত। DPO এটি সার্টিফাই করতে পারবেন না।
DPO-অনুমোদিত প্রিসেট সহ:
- DPO সঠিক এন্টিটি টাইপ এবং Replace পদ্ধতি দিয়ে ML Dev — Fraud Detection তৈরি করেন
- প্রিসেটটি বারোজনের কাছে একটি নিয়মসহ পাঠানো হয়: সব ডেটাসেট কাজে এটি ব্যবহার করুন
- DPO-এর অনুমোদন ছাড়া কেউ প্রিসেট পরিবর্তন করতে পারবে না
প্রত্যেকে এখন একই আউটপুট তৈরি করে। মার্জ করা ডেটাসেট সামঞ্জস্যপূর্ণ। বার্ষিক AI অডিট শূন্য ফাইন্ডিংসে পাস করে। আগের বছরে অসামঞ্জস্যপূর্ণ ডেটাসেট কাজ থেকে তিনটি ফাইন্ডিং ছিল।
GDPR এবং AI আইন
২০২৬ সালের জন্য আপডেট
EU AI Act আগস্ট ২০২৪-এ পূর্ণমাত্রায় কার্যকর হয়েছে। এটি AI সিস্টেমগুলোতে মডেল কাজের জন্য ব্যক্তিগত তথ্য ব্যবহারের ক্ষেত্রে নিয়ম যোগ করেছে। উচ্চ-ঝুঁকিপূর্ণ AI সিস্টেমকে তাদের ডেটাসেট ডকুমেন্ট করতে হবে, যার মধ্যে কোন অ্যানোনিমাইজেশন প্রয়োগ হয়েছে তা অন্তর্ভুক্ত।
GDPR আর্টিকেল ৫(১)(b) — উদ্দেশ্য সীমাবদ্ধতার নিয়ম — স্পষ্ট আইনি ভিত্তি ছাড়া ব্যক্তিগত তথ্য ব্যবহার বন্ধ করে। CNIL-এর ২০২৪ সালের মামলাগুলো এই ফাঁকের উপর দৃষ্টি নিবদ্ধ করেছিল: একটি সেবার জন্য সংগৃহীত তথ্য কোনো বৈধ ভিত্তি বা অ্যানোনিমাইজেশন ছাড়া মডেল কাজে ব্যবহৃত হয়েছে।
প্রিসেট উভয় আইনের নিয়ম পূরণে সাহায্য করে:
- প্রিসেটের নাম এবং কনফিগ: ডকুমেন্টেড পদ্ধতি
- প্রক্রিয়াকরণ লগ: পদ্ধতি প্রয়োগের প্রমাণ
- DPO অনুমোদন: কনফিগে রেকর্ড করা সাইন-অফ
এটি উভয় আইনের প্রয়োজনীয় অডিট ট্রেইল তৈরি করে। আর্টিকেল ১০-এর বাধ্যবাধকতা সম্পর্কে বিস্তারিত জানতে EU AI Act training data guide দেখুন।
NLP মডেল ডেটাসেটের জন্য প্রিসেট কনফিগ
বেশিরভাগ NLP মডেল ডেটাসেটে যে ধরনের তথ্য অন্তর্ভুক্ত করতে হবে:
- PERSON — একই ধরনের নাম দিয়ে Replace করুন
- EMAIL_ADDRESS — কৃত্রিম ঠিকানা দিয়ে Replace করুন
- PHONE_NUMBER — কৃত্রিম নম্বর দিয়ে Replace করুন
- CREDIT_CARD / IBAN — Replace অথবা Redact করুন
- LOCATION — যদি অবস্থান গুরুত্বপূর্ণ হয় তাহলে একই ধরনের জায়গা দিয়ে Replace করুন; না হলে Redact করুন
- DATE_OF_BIRTH — Redact করুন; বয়স গ্রুপিং প্রায়ই প্রয়োজন হয়
যে ধরনের তথ্য প্রায়ই বাদ রাখা হয়:
- সাধারণ তারিখ — টাইমস্ট্যাম্প টেম্পোরাল মডেলকে সাহায্য করে
- প্রতিষ্ঠানের নাম — named-entity মডেলকে সাহায্য করে
- URL — লিঙ্ক এবং রেফারেন্স মডেলকে সাহায্য করে
ML লিড এবং DPO অনুমোদিত প্রিসেটে এই নিয়মগুলো নির্ধারণ করেন। টিম সদস্যরা এটি প্রয়োগ করেন। তারা কনফিগ সিদ্ধান্ত নেন না।
প্রাতিষ্ঠানিক স্মৃতি হিসেবে প্রিসেট
প্রিসেটের আগে। সঠিক এন্টিটি কনফিগ তিনজন ডেটা বিজ্ঞানীর মাথায় ছিল। তারা কমপ্লায়েন্স রিভিউ প্রক্রিয়ার মধ্য দিয়ে কাজ করেছিলেন। দুজন Q3-তে চলে গেলেন। জ্ঞানও তাদের সঙ্গে চলে গেল।
প্রিসেটের পরে। কনফিগটি ML Dev — Customer Records v2.1-এ থাকে। ভার্সন লগ দেখায় কখন এটি তৈরি হয়েছিল, কে অনুমোদন করেছিলেন এবং v2.0 থেকে কী পরিবর্তন হয়েছে। নতুন টিম সদস্যরা প্রিসেট ব্যবহার করেন এবং এতে তৈরি সব জ্ঞান পান।
একটি রিভিউতে IBAN শনাক্তকরণ অনুপস্থিত পাওয়ার পর ভার্সন ২.১ সেটি যোগ করেছে। ভার্সন ২.০ ফেব্রুয়ারি ২০২৫-এ অনুমোদিত হয়েছিল। লগ সম্পূর্ণ।
প্রক্রিয়াকরণ লগ এবং DPO রিভিউ ফ্লো কীভাবে কাজ করে তার জন্য GDPR ML training anonymization guide দেখুন।
CNIL প্যাটার্নের বিপরীতে প্রিসেট
CNIL-এর ২০২৪ AI মামলাগুলো একটি স্পষ্ট প্যাটার্ন স্থাপন করেছে। তারা শুধু কী সরানো হয়েছে তা নয়, কীভাবে পরিচালিত হয়েছে তাও জিজ্ঞেস করে। DPO অনুমোদন রেকর্ড এবং প্রক্রিয়াকরণ লগ সহ একটি শেয়ার করা প্রিসেট এর সরাসরি উত্তর দেয়।
অ্যাড-হক কনফিগ দেয় না। একই ফাঁক অন্যান্য EU DPA মামলায় বিদ্যমান যা CNIL যুক্তি অনুসরণ করে। CNIL AI পদ্ধতির বিষয়ে আরো জানতে CNIL GDPR AI compliance guide দেখুন।
উপসংহার
ডকুমেন্ট টিম সদস্যদের কী করতে হবে তা বলে। প্রিসেট প্রতিবার একইভাবে করা সহজ — এবং প্রয়োগযোগ্য — করে তোলে।
ML মডেল ডেটাসেটের জন্য, সামঞ্জস্যতা একটি আইনি প্রয়োজনীয়তা এবং একটি প্রযুক্তিগত প্রয়োজনীয়তা উভয়ই। প্রিসেট একসাথে উভয়ই পূরণ করে।
AI অনুশীলন পরীক্ষাকারী DPA-রা অভিন্ন অ্যানোনিমাইজেশনের প্রমাণ চায়। সমস্ত ডেটাসেট কাজে একইভাবে প্রয়োগ করা একটি প্রিসেট হলো আপনি তাদের দিতে পারেন সবচেয়ে স্পষ্ট প্রমাণ।