একটি স্ক্রিপ্ট যথেষ্ট নয়

প্রতিটি ডেটা সায়েন্স টিম এরকম কিছু লিখেছে:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

এটি শুধু ইমেল ঠিকানা প্রতিস্থাপন করে। এটুকুই। ডেটাসেটে এখনও নাম, ফোন নম্বর এবং মেডিকেল আইডি থাকে। এটি GDPR অডিটে ব্যর্থ হবে।

"আমি ইমেইল অ্যানোনিমাইজ করেছি" এবং "এই ডেটাসেট GDPR-সম্মত" এর মধ্যে ফারাক অনেক বড়। টিমগুলো এটি প্রায়ই কমবেশি মনে করে।

GDPR আর্টিকেল 5(1)(b) হল মূল নিয়ম। এটিকে উদ্দেশ্য সীমাবদ্ধতার নীতি বলা হয়। ব্যক্তিগত রেকর্ড শুধুমাত্র সেই উদ্দেশ্যে ব্যবহার করা যাবে যার জন্য সংগ্রহ করা হয়েছিল।

গ্রাহক অর্ডার অর্ডার পূরণের জন্য সংগ্রহ করা হয়েছিল। সুপারিশ মডেল প্রশিক্ষণের জন্য নয়। স্বাস্থ্য রেকর্ড চিকিৎসার জন্য সংগ্রহ করা হয়েছিল। রিঅ্যাডমিশন মডেল প্রশিক্ষণের জন্য নয়।

ML প্রশিক্ষণের জন্য এই রেকর্ড ব্যবহার করতে একটি টিমকে তিনটির মধ্যে একটি প্রয়োজন:

ML উদ্দেশ্যের জন্য প্রতিটি ব্যক্তির স্পষ্ট সম্মতি — পাওয়া কঠিন, প্রায়ই পূর্বে অসম্ভব
একটি বৈধ স্বার্থ মূল্যায়ন যা ML ব্যবহার সামঞ্জস্যপূর্ণ দেখায় — আইনগতভাবে অনিশ্চিত
অ্যানোনিমাইজেশন — ব্যক্তিগত বিবরণ প্রতিস্থাপন বা অপসারণ করা যাতে ডেটাসেট GDPR-এর অধীনে আর ব্যক্তিগত না থাকে

সঠিক অ্যানোনিমাইজেশন সবচেয়ে বেশি আইনি নিশ্চয়তা দেয়। চ্যালেঞ্জ হল প্রতিবার এটি সঠিকভাবে করা।

এককালীন স্ক্রিপ্টের সমস্যা

টিম যারা প্রতিটি ডেটাসেটের জন্য নতুন Python স্ক্রিপ্ট লেখে তারা জটিল সমস্যা তৈরি করে।

অসম্পূর্ণ কভারেজ। একটি স্কিমার জন্য তৈরি স্ক্রিপ্ট নতুন ফিল্ড মিস করে। ছয় মাস আগে যোগ করা একটি ক্লিনিকাল নোট কলাম? রেজেক্সে নেই।

কোনো সামঞ্জস্য নেই। ডেটাসেট A script_v1 দিয়ে প্রক্রিয়া করা হয়েছিল। ডেটাসেট B script_v3 ব্যবহার করেছে। একত্রিত প্রশিক্ষণ সেটে তিনটি ভিন্ন পদ্ধতি প্রয়োগ হয়েছে। একজন DPO এটি প্রমাণ করতে পারবেন না।

কোনো অডিট ট্রেইল নেই। স্ক্রিপ্ট চলেছে। কী পরিবর্তন করেছে? কোন সত্তা পাওয়া গেছে? প্রক্রিয়াকরণ রেকর্ড ছাড়া সম্মতি অসম্ভব।

মডেল ড্রিফট। 2023 সালে কাজ করা রেজেক্স প্যাটার্ন 2024-এর নতুন আইডেন্টিফায়ার ফরম্যাট মিস করে।

একটি ব্যাচ প্রক্রিয়াকরণ ওয়াকথ্রু

একটি হেলথকেয়ার AI টিমকে 8,000 রোগীর রেকর্ড অ্যানোনিমাইজ করতে হবে। US টিমের একটি EU অফিস থেকে অ্যাক্সেস দরকার। Schrems II প্রযোজ্য — EU-উৎস রেকর্ড সঠিক সুরক্ষা ছাড়া US অবকাঠামোতে যেতে পারে না।

ঐতিহ্যগত পথ: একজন ডেটা ইঞ্জিনিয়ার কাস্টম স্ক্রিপ্ট লেখে। দুই থেকে তিন দিনের ডেভেলপমেন্ট। DPO পর্যালোচনার জন্য এক থেকে দুই দিন। মোট: চার থেকে ছয় দিন।

ব্যাচ প্রক্রিয়াকরণ পথ:

8,000 রেকর্ড CSV হিসেবে এক্সপোর্ট করুন
ব্যাচ প্রক্রিয়াকরণে আপলোড করুন
সত্তার ধরন সেট করুন: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
পদ্ধতি বেছে নিন: Replace (কাঠামো সংরক্ষণ করতে বাস্তবসম্মত সিন্থেটিক মান প্রতিস্থাপন করে)
প্রক্রিয়া: 8,000 রেকর্ডের জন্য 45 মিনিট
পরিষ্কার CSV ডাউনলোড করুন
DPO প্রক্রিয়াকরণ মেটাডেটা পর্যালোচনা করেন: 2 ঘণ্টা
DPO অনুমোদন করেন।

মোট সময়: 45 মিনিট প্লাস 2 ঘণ্টা DPO পর্যালোচনা। চার থেকে ছয় দিনের পরিবর্তে।

ML ব্যবহারের জন্য Replace বনাম Redact

অ্যানোনিমাইজেশন পদ্ধতি মডেলের মানের জন্য গুরুত্বপূর্ণ।

Redact PII কে [REDACTED] এর মতো টোকেন দিয়ে প্রতিস্থাপন করে। PII ডিটেকশন মডেলের জন্য কাজ করে। অন্যান্য কাজের জন্য এটি ক্ষতিকারক।

Replace "John Smith" কে "David Chen" দিয়ে স্বাপ করে। "jsmith@company.com" কে "dchen@synthetic.com" দিয়ে। কাঠামো অক্ষুণ্ণ থাকে। মডেল বাস্তব প্রেক্ষাপট থেকে শেখে।

ML প্রশিক্ষণ সেটের জন্য, Replace সঠিক পছন্দ।

Schrems II এবং ক্রস-বর্ডার ট্রান্সফার

Schrems II রায় (CJEU, 2020) EU-US Privacy Shield বাতিল করেছে। EU-উৎস রেকর্ড সঠিক ট্রান্সফার সুরক্ষা ছাড়া US ML অবকাঠামোতে যেতে পারে না।

তিনটি প্রধান সুরক্ষা:

Transfer Impact Assessment সহ Standard Contractual Clauses
কোম্পানি গ্রুপের মধ্যে ট্রান্সফারের জন্য Binding Corporate Rules
অ্যানোনিমাইজড রেকর্ডের জন্য Derogation — সঠিকভাবে অ্যানোনিমাইজড ফাইল GDPR-এর অধীনে আর ব্যক্তিগত নয় এবং ট্রান্সফার নিয়ম থেকে মুক্ত

US অবকাঠামো ব্যবহারকারী টিমের জন্য, সঠিক অ্যানোনিমাইজেশন Schrems II সমস্যা দূর করে।

DPO কে কী দেবেন

DPO অনুমোদনের জন্য পরিষ্কার প্রশিক্ষণ সেট জমা দেওয়ার সময়, এই পাঁচটি আইটেম অন্তর্ভুক্ত করুন:

উৎস বিবরণ। মূল ডেটাসেট কী ছিল?
অ্যানোনিমাইজেশন কনফিগ। কোন সত্তার ধরন সনাক্ত এবং প্রতিস্থাপন করা হয়েছিল?
প্রক্রিয়াকরণ মেটাডেটা। প্রতি রেকর্ডে সত্তার সংখ্যা, কনফিডেন্স স্কোর।
অবশিষ্ট ঝুঁকির মূল্যায়ন। কোনো ব্যক্তিকে পুনরায় সনাক্ত করার সম্ভাবনা কত?
উদ্দিষ্ট ব্যবহার। কোন মডেল প্রশিক্ষিত হবে?

ব্যাচ প্রক্রিয়াকরণ আইটেম 2 এবং 3 স্বয়ংক্রিয়ভাবে সরবরাহ করে।

আপনি কী পান

GDPR-সম্মত ML সেট কাস্টম স্ক্রিপ্ট, বহু দিনের বিলম্ব, বা মডেলের মান হারানো ছাড়াই অর্জনযোগ্য।

Replace পদ্ধতি NLP প্রশিক্ষণের জন্য গুরুত্বপূর্ণ প্রাকৃতিক ভাষার বৈশিষ্ট্যগুলি বজায় রাখে। ব্যাচ প্রক্রিয়াকরণের 45 মিনিট একটি বিলম্বিত সম্মতি পর্যালোচনা এবং একটি সরল DPO সাইন-অফের মধ্যে পার্থক্য।

উৎস

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

GDPR ML প্রশিক্ষণ ডেটা অ্যানোনিমাইজেশন

একটি স্ক্রিপ্ট যথেষ্ট নয়

এককালীন স্ক্রিপ্টের সমস্যা

একটি ব্যাচ প্রক্রিয়াকরণ ওয়াকথ্রু

ML ব্যবহারের জন্য Replace বনাম Redact

Schrems II এবং ক্রস-বর্ডার ট্রান্সফার

DPO কে কী দেবেন

আপনি কী পান

উৎস

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

GDPR ML প্রশিক্ষণ ডেটা অ্যানোনিমাইজেশন

একটি স্ক্রিপ্ট যথেষ্ট নয়

কেন GDPR ML প্রশিক্ষণ সীমাবদ্ধ করে

এককালীন স্ক্রিপ্টের সমস্যা

একটি ব্যাচ প্রক্রিয়াকরণ ওয়াকথ্রু

ML ব্যবহারের জন্য Replace বনাম Redact

Schrems II এবং ক্রস-বর্ডার ট্রান্সফার

DPO কে কী দেবেন

আপনি কী পান

উৎস

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow