একটি স্ক্রিপ্ট যথেষ্ট নয়
প্রতিটি ডেটা সায়েন্স টিম এরকম কিছু লিখেছে:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
এটি শুধু ইমেল ঠিকানা প্রতিস্থাপন করে। এটুকুই। ডেটাসেটে এখনও নাম, ফোন নম্বর এবং মেডিকেল আইডি থাকে। এটি GDPR অডিটে ব্যর্থ হবে।
"আমি ইমেইল অ্যানোনিমাইজ করেছি" এবং "এই ডেটাসেট GDPR-সম্মত" এর মধ্যে ফারাক অনেক বড়। টিমগুলো এটি প্রায়ই কমবেশি মনে করে।
কেন GDPR ML প্রশিক্ষণ সীমাবদ্ধ করে
GDPR আর্টিকেল 5(1)(b) হল মূল নিয়ম। এটিকে উদ্দেশ্য সীমাবদ্ধতার নীতি বলা হয়। ব্যক্তিগত রেকর্ড শুধুমাত্র সেই উদ্দেশ্যে ব্যবহার করা যাবে যার জন্য সংগ্রহ করা হয়েছিল।
গ্রাহক অর্ডার অর্ডার পূরণের জন্য সংগ্রহ করা হয়েছিল। সুপারিশ মডেল প্রশিক্ষণের জন্য নয়। স্বাস্থ্য রেকর্ড চিকিৎসার জন্য সংগ্রহ করা হয়েছিল। রিঅ্যাডমিশন মডেল প্রশিক্ষণের জন্য নয়।
ML প্রশিক্ষণের জন্য এই রেকর্ড ব্যবহার করতে একটি টিমকে তিনটির মধ্যে একটি প্রয়োজন:
- ML উদ্দেশ্যের জন্য প্রতিটি ব্যক্তির স্পষ্ট সম্মতি — পাওয়া কঠিন, প্রায়ই পূর্বে অসম্ভব
- একটি বৈধ স্বার্থ মূল্যায়ন যা ML ব্যবহার সামঞ্জস্যপূর্ণ দেখায় — আইনগতভাবে অনিশ্চিত
- অ্যানোনিমাইজেশন — ব্যক্তিগত বিবরণ প্রতিস্থাপন বা অপসারণ করা যাতে ডেটাসেট GDPR-এর অধীনে আর ব্যক্তিগত না থাকে
সঠিক অ্যানোনিমাইজেশন সবচেয়ে বেশি আইনি নিশ্চয়তা দেয়। চ্যালেঞ্জ হল প্রতিবার এটি সঠিকভাবে করা।
এককালীন স্ক্রিপ্টের সমস্যা
টিম যারা প্রতিটি ডেটাসেটের জন্য নতুন Python স্ক্রিপ্ট লেখে তারা জটিল সমস্যা তৈরি করে।
অসম্পূর্ণ কভারেজ। একটি স্কিমার জন্য তৈরি স্ক্রিপ্ট নতুন ফিল্ড মিস করে। ছয় মাস আগে যোগ করা একটি ক্লিনিকাল নোট কলাম? রেজেক্সে নেই।
কোনো সামঞ্জস্য নেই। ডেটাসেট A script_v1 দিয়ে প্রক্রিয়া করা হয়েছিল। ডেটাসেট B script_v3 ব্যবহার করেছে। একত্রিত প্রশিক্ষণ সেটে তিনটি ভিন্ন পদ্ধতি প্রয়োগ হয়েছে। একজন DPO এটি প্রমাণ করতে পারবেন না।
কোনো অডিট ট্রেইল নেই। স্ক্রিপ্ট চলেছে। কী পরিবর্তন করেছে? কোন সত্তা পাওয়া গেছে? প্রক্রিয়াকরণ রেকর্ড ছাড়া সম্মতি অসম্ভব।
মডেল ড্রিফট। 2023 সালে কাজ করা রেজেক্স প্যাটার্ন 2024-এর নতুন আইডেন্টিফায়ার ফরম্যাট মিস করে।
একটি ব্যাচ প্রক্রিয়াকরণ ওয়াকথ্রু
একটি হেলথকেয়ার AI টিমকে 8,000 রোগীর রেকর্ড অ্যানোনিমাইজ করতে হবে। US টিমের একটি EU অফিস থেকে অ্যাক্সেস দরকার। Schrems II প্রযোজ্য — EU-উৎস রেকর্ড সঠিক সুরক্ষা ছাড়া US অবকাঠামোতে যেতে পারে না।
ঐতিহ্যগত পথ: একজন ডেটা ইঞ্জিনিয়ার কাস্টম স্ক্রিপ্ট লেখে। দুই থেকে তিন দিনের ডেভেলপমেন্ট। DPO পর্যালোচনার জন্য এক থেকে দুই দিন। মোট: চার থেকে ছয় দিন।
ব্যাচ প্রক্রিয়াকরণ পথ:
- 8,000 রেকর্ড CSV হিসেবে এক্সপোর্ট করুন
- ব্যাচ প্রক্রিয়াকরণে আপলোড করুন
- সত্তার ধরন সেট করুন: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- পদ্ধতি বেছে নিন: Replace (কাঠামো সংরক্ষণ করতে বাস্তবসম্মত সিন্থেটিক মান প্রতিস্থাপন করে)
- প্রক্রিয়া: 8,000 রেকর্ডের জন্য 45 মিনিট
- পরিষ্কার CSV ডাউনলোড করুন
- DPO প্রক্রিয়াকরণ মেটাডেটা পর্যালোচনা করেন: 2 ঘণ্টা
- DPO অনুমোদন করেন।
মোট সময়: 45 মিনিট প্লাস 2 ঘণ্টা DPO পর্যালোচনা। চার থেকে ছয় দিনের পরিবর্তে।
ML ব্যবহারের জন্য Replace বনাম Redact
অ্যানোনিমাইজেশন পদ্ধতি মডেলের মানের জন্য গুরুত্বপূর্ণ।
Redact PII কে [REDACTED] এর মতো টোকেন দিয়ে প্রতিস্থাপন করে। PII ডিটেকশন মডেলের জন্য কাজ করে। অন্যান্য কাজের জন্য এটি ক্ষতিকারক।
Replace "John Smith" কে "David Chen" দিয়ে স্বাপ করে। "jsmith@company.com" কে "dchen@synthetic.com" দিয়ে। কাঠামো অক্ষুণ্ণ থাকে। মডেল বাস্তব প্রেক্ষাপট থেকে শেখে।
ML প্রশিক্ষণ সেটের জন্য, Replace সঠিক পছন্দ।
Schrems II এবং ক্রস-বর্ডার ট্রান্সফার
Schrems II রায় (CJEU, 2020) EU-US Privacy Shield বাতিল করেছে। EU-উৎস রেকর্ড সঠিক ট্রান্সফার সুরক্ষা ছাড়া US ML অবকাঠামোতে যেতে পারে না।
তিনটি প্রধান সুরক্ষা:
- Transfer Impact Assessment সহ Standard Contractual Clauses
- কোম্পানি গ্রুপের মধ্যে ট্রান্সফারের জন্য Binding Corporate Rules
- অ্যানোনিমাইজড রেকর্ডের জন্য Derogation — সঠিকভাবে অ্যানোনিমাইজড ফাইল GDPR-এর অধীনে আর ব্যক্তিগত নয় এবং ট্রান্সফার নিয়ম থেকে মুক্ত
US অবকাঠামো ব্যবহারকারী টিমের জন্য, সঠিক অ্যানোনিমাইজেশন Schrems II সমস্যা দূর করে।
DPO কে কী দেবেন
DPO অনুমোদনের জন্য পরিষ্কার প্রশিক্ষণ সেট জমা দেওয়ার সময়, এই পাঁচটি আইটেম অন্তর্ভুক্ত করুন:
- উৎস বিবরণ। মূল ডেটাসেট কী ছিল?
- অ্যানোনিমাইজেশন কনফিগ। কোন সত্তার ধরন সনাক্ত এবং প্রতিস্থাপন করা হয়েছিল?
- প্রক্রিয়াকরণ মেটাডেটা। প্রতি রেকর্ডে সত্তার সংখ্যা, কনফিডেন্স স্কোর।
- অবশিষ্ট ঝুঁকির মূল্যায়ন। কোনো ব্যক্তিকে পুনরায় সনাক্ত করার সম্ভাবনা কত?
- উদ্দিষ্ট ব্যবহার। কোন মডেল প্রশিক্ষিত হবে?
ব্যাচ প্রক্রিয়াকরণ আইটেম 2 এবং 3 স্বয়ংক্রিয়ভাবে সরবরাহ করে।
আপনি কী পান
GDPR-সম্মত ML সেট কাস্টম স্ক্রিপ্ট, বহু দিনের বিলম্ব, বা মডেলের মান হারানো ছাড়াই অর্জনযোগ্য।
Replace পদ্ধতি NLP প্রশিক্ষণের জন্য গুরুত্বপূর্ণ প্রাকৃতিক ভাষার বৈশিষ্ট্যগুলি বজায় রাখে। ব্যাচ প্রক্রিয়াকরণের 45 মিনিট একটি বিলম্বিত সম্মতি পর্যালোচনা এবং একটি সরল DPO সাইন-অফের মধ্যে পার্থক্য।