পুনরাবৃত্তিযোগ্য গোপনীয়তা: ML টিমের কেন শুধু ডকুমেন্ট নয়, প্রিসেট দরকার

DPO অ্যানোনিমাইজেশন পরিকল্পনা অনুমোদন করেছেন। এতে চারটি বিষয় অন্তর্ভুক্ত: নাম, ইমেইল, ফোন নম্বর এবং জন্ম তারিখ। পদ্ধতি হলো Replace। পরিকল্পনাটি চার পৃষ্ঠার এবং কমপ্লায়েন্স উইকিতে রাখা আছে।

বারোজন ডেটা বিজ্ঞানী কিকঅফে এটি পড়েছেন। প্রত্যেকে নিজেদের মতো টুলটি সেট আপ করেন। কেউ জাতীয় পরিচয়পত্র নম্বর যোগ করেন। কেউ IP ঠিকানা যোগ করেন। কেউ Redact-এ স্যুইচ করেন। তিন মাস পরে, ডেটাসেটগুলো আর সামঞ্জস্যপূর্ণ নয়।

CNIL ২০২৪ সালে বেশ কয়েকটি AI কোম্পানি পরীক্ষা করে। সমস্যা: মডেল ডেটাসেটে ব্যক্তিগত তথ্যের অনুপযুক্ত ব্যবহার। তারা কেবল জিজ্ঞেস করেনি অ্যানোনিমাইজেশন হয়েছে কিনা। জিজ্ঞেস করেছে কতটা সামঞ্জস্যপূর্ণভাবে প্রয়োগ করা হয়েছে।

ডকুমেন্ট দরকার। কিন্তু সেটুকুই যথেষ্ট নয়। সমাধান হলো প্রিসেট।

ML মডেল ডেটাসেটের জন্য আলাদা কনফিগারেশন কেন দরকার

মডেল ডেটাসেট তৈরির নিজস্ব বিশেষ চাহিদা আছে। সাধারণ ডকুমেন্ট অ্যানোনিমাইজেশনের সঙ্গে এর মিল নেই।

Redact নয়, Replace। যে মডেল [REDACTED] দিয়ে প্রশিক্ষিত হয়, সে ওই টোকেনকে নামের অবস্থান চিহ্নিতকারী হিসেবে শেখে। এটি মডেলের ক্ষতি করে। Replace 'John Smith'-কে 'David Chen' দিয়ে বদলে দেয়। মডেল আসল নামের ধরন দেখতে পায়। কোনো মাস্ক টোকেন দেখে না।

সব রেকর্ডে একই প্রক্রিয়া। যে ডেটাসেটে ৭০% নাম replace করা এবং ৩০% [REDACTED] করা, সেটি মিশ্র সংকেত পাঠায়। প্রতিটি রেকর্ড একই ধাপের মধ্য দিয়ে যেতে হবে।

একই এন্টিটি তালিকা। যদি ডেটাসেটে স্বাস্থ্য তথ্য থাকে এবং কিছু রেকর্ডে নাম সরানো হয় কিন্তু জন্ম তারিখ রেখে দেওয়া হয়, তাহলে ফাঁক তৈরি হয়। বারোজন ডেটা বিজ্ঞানীকে একই ধরনের তথ্য সরাতে হবে।

অতিরিক্ত সরানো নয়। টাইমস্ট্যাম্প হিসেবে থাকা তারিখ — জন্ম তারিখ নয় — সরিয়ে ফেললে কমপ্লায়েন্স লাভ ছাড়াই ডেটাসেটের গুণমান কমে যায়। অনুমোদিত প্রিসেট সঠিকভাবে জানায় কোন আইটেম সরাতে হবে।

পুনরাবৃত্তিযোগ্য আউটপুট। যদি কোনো ডেটাসেট আবার চালাতে হয় — ধরুন, একটি মিস হওয়া এন্টিটি টাইপ পাওয়া গেছে — তাহলে প্রিসেট প্রতিবার একই ফলাফল দেয়। অ্যাড-হক কনফিগ এটি পারে না।

বারোজন ডেটা বিজ্ঞানীর সমস্যা

ইউরোপের একটি ফিনটেক ML টিম গ্রাহক লগ থেকে ডেটাসেট ব্যবহার করে। DPO উদ্দেশ্য অনুমোদন করেছেন — জালিয়াতি শনাক্তকরণ — একটি নিয়মসহ: মডেল কাজ শুরুর আগে সমস্ত গ্রাহকের নাম, ইমেইল, ফোন নম্বর এবং পেমেন্ট আইডি replace করতে হবে।

প্রিসেট ছাড়া:

ব্যক্তি ১ নাম, ইমেইল এবং ফোন নম্বর সরান — কিন্তু পেমেন্ট আইডি মিস করেন
ব্যক্তি ২ পেমেন্ট আইডি অন্তর্ভুক্ত করেন কিন্তু Replace-এর বদলে Redact ব্যবহার করেন
ব্যক্তি ৩ পরিকল্পনা ডকুমেন্ট সঠিকভাবে অনুসরণ করেন
ব্যক্তি ৪-১২ ভিন্নভাবে করেন

মার্জ করা ডেটাসেট আংশিকভাবে নন-কমপ্লায়েন্ট এবং আংশিকভাবে অতিরিক্ত প্রক্রিয়াজাত। DPO এটি সার্টিফাই করতে পারবেন না।

DPO-অনুমোদিত প্রিসেট সহ:

DPO সঠিক এন্টিটি টাইপ এবং Replace পদ্ধতি দিয়ে ML Dev — Fraud Detection তৈরি করেন
প্রিসেটটি বারোজনের কাছে একটি নিয়মসহ পাঠানো হয়: সব ডেটাসেট কাজে এটি ব্যবহার করুন
DPO-এর অনুমোদন ছাড়া কেউ প্রিসেট পরিবর্তন করতে পারবে না

প্রত্যেকে এখন একই আউটপুট তৈরি করে। মার্জ করা ডেটাসেট সামঞ্জস্যপূর্ণ। বার্ষিক AI অডিট শূন্য ফাইন্ডিংসে পাস করে। আগের বছরে অসামঞ্জস্যপূর্ণ ডেটাসেট কাজ থেকে তিনটি ফাইন্ডিং ছিল।

২০২৬ সালের জন্য আপডেট

EU AI Act আগস্ট ২০২৪-এ পূর্ণমাত্রায় কার্যকর হয়েছে। এটি AI সিস্টেমগুলোতে মডেল কাজের জন্য ব্যক্তিগত তথ্য ব্যবহারের ক্ষেত্রে নিয়ম যোগ করেছে। উচ্চ-ঝুঁকিপূর্ণ AI সিস্টেমকে তাদের ডেটাসেট ডকুমেন্ট করতে হবে, যার মধ্যে কোন অ্যানোনিমাইজেশন প্রয়োগ হয়েছে তা অন্তর্ভুক্ত।

GDPR আর্টিকেল ৫(১)(b) — উদ্দেশ্য সীমাবদ্ধতার নিয়ম — স্পষ্ট আইনি ভিত্তি ছাড়া ব্যক্তিগত তথ্য ব্যবহার বন্ধ করে। CNIL-এর ২০২৪ সালের মামলাগুলো এই ফাঁকের উপর দৃষ্টি নিবদ্ধ করেছিল: একটি সেবার জন্য সংগৃহীত তথ্য কোনো বৈধ ভিত্তি বা অ্যানোনিমাইজেশন ছাড়া মডেল কাজে ব্যবহৃত হয়েছে।

প্রিসেট উভয় আইনের নিয়ম পূরণে সাহায্য করে:

প্রিসেটের নাম এবং কনফিগ: ডকুমেন্টেড পদ্ধতি
প্রক্রিয়াকরণ লগ: পদ্ধতি প্রয়োগের প্রমাণ
DPO অনুমোদন: কনফিগে রেকর্ড করা সাইন-অফ

এটি উভয় আইনের প্রয়োজনীয় অডিট ট্রেইল তৈরি করে। আর্টিকেল ১০-এর বাধ্যবাধকতা সম্পর্কে বিস্তারিত জানতে EU AI Act training data guide দেখুন।

NLP মডেল ডেটাসেটের জন্য প্রিসেট কনফিগ

বেশিরভাগ NLP মডেল ডেটাসেটে যে ধরনের তথ্য অন্তর্ভুক্ত করতে হবে:

PERSON — একই ধরনের নাম দিয়ে Replace করুন
EMAIL_ADDRESS — কৃত্রিম ঠিকানা দিয়ে Replace করুন
PHONE_NUMBER — কৃত্রিম নম্বর দিয়ে Replace করুন
CREDIT_CARD / IBAN — Replace অথবা Redact করুন
LOCATION — যদি অবস্থান গুরুত্বপূর্ণ হয় তাহলে একই ধরনের জায়গা দিয়ে Replace করুন; না হলে Redact করুন
DATE_OF_BIRTH — Redact করুন; বয়স গ্রুপিং প্রায়ই প্রয়োজন হয়

যে ধরনের তথ্য প্রায়ই বাদ রাখা হয়:

সাধারণ তারিখ — টাইমস্ট্যাম্প টেম্পোরাল মডেলকে সাহায্য করে
প্রতিষ্ঠানের নাম — named-entity মডেলকে সাহায্য করে
URL — লিঙ্ক এবং রেফারেন্স মডেলকে সাহায্য করে

ML লিড এবং DPO অনুমোদিত প্রিসেটে এই নিয়মগুলো নির্ধারণ করেন। টিম সদস্যরা এটি প্রয়োগ করেন। তারা কনফিগ সিদ্ধান্ত নেন না।

প্রাতিষ্ঠানিক স্মৃতি হিসেবে প্রিসেট

প্রিসেটের আগে। সঠিক এন্টিটি কনফিগ তিনজন ডেটা বিজ্ঞানীর মাথায় ছিল। তারা কমপ্লায়েন্স রিভিউ প্রক্রিয়ার মধ্য দিয়ে কাজ করেছিলেন। দুজন Q3-তে চলে গেলেন। জ্ঞানও তাদের সঙ্গে চলে গেল।

প্রিসেটের পরে। কনফিগটি ML Dev — Customer Records v2.1-এ থাকে। ভার্সন লগ দেখায় কখন এটি তৈরি হয়েছিল, কে অনুমোদন করেছিলেন এবং v2.0 থেকে কী পরিবর্তন হয়েছে। নতুন টিম সদস্যরা প্রিসেট ব্যবহার করেন এবং এতে তৈরি সব জ্ঞান পান।

একটি রিভিউতে IBAN শনাক্তকরণ অনুপস্থিত পাওয়ার পর ভার্সন ২.১ সেটি যোগ করেছে। ভার্সন ২.০ ফেব্রুয়ারি ২০২৫-এ অনুমোদিত হয়েছিল। লগ সম্পূর্ণ।

প্রক্রিয়াকরণ লগ এবং DPO রিভিউ ফ্লো কীভাবে কাজ করে তার জন্য GDPR ML training anonymization guide দেখুন।

CNIL প্যাটার্নের বিপরীতে প্রিসেট

CNIL-এর ২০২৪ AI মামলাগুলো একটি স্পষ্ট প্যাটার্ন স্থাপন করেছে। তারা শুধু কী সরানো হয়েছে তা নয়, কীভাবে পরিচালিত হয়েছে তাও জিজ্ঞেস করে। DPO অনুমোদন রেকর্ড এবং প্রক্রিয়াকরণ লগ সহ একটি শেয়ার করা প্রিসেট এর সরাসরি উত্তর দেয়।

অ্যাড-হক কনফিগ দেয় না। একই ফাঁক অন্যান্য EU DPA মামলায় বিদ্যমান যা CNIL যুক্তি অনুসরণ করে। CNIL AI পদ্ধতির বিষয়ে আরো জানতে CNIL GDPR AI compliance guide দেখুন।

উপসংহার

ডকুমেন্ট টিম সদস্যদের কী করতে হবে তা বলে। প্রিসেট প্রতিবার একইভাবে করা সহজ — এবং প্রয়োগযোগ্য — করে তোলে।

ML মডেল ডেটাসেটের জন্য, সামঞ্জস্যতা একটি আইনি প্রয়োজনীয়তা এবং একটি প্রযুক্তিগত প্রয়োজনীয়তা উভয়ই। প্রিসেট একসাথে উভয়ই পূরণ করে।

AI অনুশীলন পরীক্ষাকারী DPA-রা অভিন্ন অ্যানোনিমাইজেশনের প্রমাণ চায়। সমস্ত ডেটাসেট কাজে একইভাবে প্রয়োগ করা একটি প্রিসেট হলো আপনি তাদের দিতে পারেন সবচেয়ে স্পষ্ট প্রমাণ।

সূত্র

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

পুনরাবৃত্তিযোগ্য গোপনীয়তা: ML টিমের জন্য প্রিসেট কেন প্রয়োজন

পুনরাবৃত্তিযোগ্য গোপনীয়তা: ML টিমের কেন শুধু ডকুমেন্ট নয়, প্রিসেট দরকার

ML মডেল ডেটাসেটের জন্য আলাদা কনফিগারেশন কেন দরকার

বারোজন ডেটা বিজ্ঞানীর সমস্যা

NLP মডেল ডেটাসেটের জন্য প্রিসেট কনফিগ

প্রাতিষ্ঠানিক স্মৃতি হিসেবে প্রিসেট

CNIL প্যাটার্নের বিপরীতে প্রিসেট

উপসংহার

সূত্র

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

পুনরাবৃত্তিযোগ্য গোপনীয়তা: ML টিমের জন্য প্রিসেট কেন প্রয়োজন

পুনরাবৃত্তিযোগ্য গোপনীয়তা: ML টিমের কেন শুধু ডকুমেন্ট নয়, প্রিসেট দরকার

ML মডেল ডেটাসেটের জন্য আলাদা কনফিগারেশন কেন দরকার

বারোজন ডেটা বিজ্ঞানীর সমস্যা

GDPR এবং AI আইন

NLP মডেল ডেটাসেটের জন্য প্রিসেট কনফিগ

প্রাতিষ্ঠানিক স্মৃতি হিসেবে প্রিসেট

CNIL প্যাটার্নের বিপরীতে প্রিসেট

উপসংহার

সূত্র

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow