কলাম মুছলে যে ফাঁক থেকে যায়
২০২৬ সালে আপডেট করা হয়েছে
গবেষণা ডেটাসেট বিশ্ববিদ্যালয়গুলোর মধ্যে CSV ফাইল হিসেবে চলাচল করে। দল যখন শেয়ারিংয়ের জন্য CSV প্রস্তুত করে, কাজটা কলাম-কেন্দ্রিক হয়। ব্যক্তিগত তথ্য খোঁজো। মুছে ফেলো বা প্রতিস্থাপন করো।
এই পদ্ধতি নির্দিষ্ট ক্ষেত্রের জন্য কাজ করে। "email" নামের কলামে ইমেইল থাকে — মুছে দাও। "phone" নামের কলামে ফোন নম্বর থাকে — মুছে দাও। "participant_name" নামের কলামে নাম থাকে — কোড দিয়ে বদলে দাও।
কিন্তু মুক্ত-টেক্সট উত্তরের কলামগুলো একটা অন্ধ জায়গা। লেবেলযুক্ত কলাম মুছলেও সেগুলো স্পর্শ করা হয় না।
৫,০০০ সারির একটি সার্ভেতে পাঁচটি কাঠামোবদ্ধ PII কলাম এবং পনেরোটি মুক্ত-টেক্সট উত্তর কলাম থাকতে পারে। কাঠামোবদ্ধ কলামে নাম, ইমেইল, ফোন নম্বর, আইডি এবং জন্মসাল থাকে। মুক্ত-টেক্সট কলামে মন্তব্য, নোট এবং পরামর্শ থাকে।
কাঠামোবদ্ধ কলামগুলো পরিষ্কার করা হয়। মুক্ত-টেক্সট কলামগুলো কাঁচা থেকে যায়। কিন্তু মানুষ এরকম লেখে।
প্রথম উদাহরণ: "বোস্টন মেডিকেল সেন্টারের আমার ডাক্তার, ডা. মারিয়া সান্তোস বলেছিলেন চিকিৎসাটি নতুন।" দ্বিতীয়: "২০১৯ সালের দুর্ঘটনার পর থেকেই আমি এটার সাথে লড়ছি।" তৃতীয়: "বিস্তারিত জানতে আমার কেয়ারগিভার margaret.wells@gmail.com-এ যোগাযোগ করুন।"
প্রতিটি এন্ট্রিতে বাস্তব মানুষের নাম আছে। কেউ কেউ স্বাস্থ্য তথ্য বা যোগাযোগের তথ্য অন্তর্ভুক্ত করেছে। কোনোটিই কলাম হেডারে দেখা যায় না। কোনোটিই কলাম মুছলে ধরা পড়ে না।
কেন এটি GDPR মানদণ্ড পূরণ করে না
GDPR রিসাইটাল ২৬ বেনামী রেকর্ডকে সংজ্ঞায়িত করে এমন রেকর্ড হিসেবে যা কোনো ব্যক্তির সাথে যুক্ত করা যায় না। মানদণ্ড উঁচু। রেকর্ড তখনই সত্যিকার অর্থে বেনামী হয় যখন পুনরায় শনাক্তকরণ যুক্তিসংগতভাবে সম্ভব নয়।
পরিষ্কার নির্দিষ্ট কলাম কিন্তু মুক্ত-টেক্সটে নামওয়ালা মানুষসহ একটি CSV সেই পরীক্ষায় উত্তীর্ণ হয় না। সেই নামগুলো শনাক্তযোগ্য। ডেটাসেটটি এখনও ব্যক্তিগত। GDPR অনুচ্ছেদ ৮৯-এর নিয়ম এখনও প্রযোজ্য। ফলে এই তিনটি ঝুঁকি দেখা দেয়।
অনুচ্ছেদ ৮৯ গবেষণা ছাড়: অনুচ্ছেদ ৮৯ গবেষকদের কম দায়িত্ব নিয়ে বিজ্ঞানের জন্য ব্যক্তিগত তথ্য প্রক্রিয়া করতে দেয়। কিন্তু কেবল যেখানে "উপযুক্ত সুরক্ষা" বিদ্যমান। অনুচ্ছেদ ৮৯-এর আওতা দাবি করে মুক্ত-টেক্সট PII-সহ ফাইল শেয়ার করা আইনগত ব্যর্থতা।
নৈতিকতা অনুমোদন: বেশিরভাগ IRB এবং নৈতিকতা বোর্ড শেয়ার করা ডেটাসেটের জন্য সম্পূর্ণ বেনামীকরণ প্রয়োজন। আংশিক কাজ — নির্দিষ্ট কলাম পরিষ্কার, মুক্ত-টেক্সট কাঁচা — সাধারণত ব্যর্থ হয়। বোর্ড জমা প্রত্যাখ্যান করতে পারে।
ডেটা শেয়ারিং চুক্তি: প্রতিষ্ঠানগুলোর মধ্যে DSA প্রয়োজনীয় বেনামীকরণের মাত্রা নির্ধারণ করে। GDPR রিসাইটাল ২৬ ব্যর্থ আংশিক কাজ DSA লঙ্ঘন করতে পারে। এটি একটি বিস্তৃত কার্যক্রমে কীভাবে ফিট করে তা জানতে আমাদের আইনি সম্মতি ওভারভিউ দেখুন।
কেন মুক্ত-টেক্সট পরিষ্কার করা এত কঠিন
ফ্রি-টেক্সট সার্ভে উত্তরগুলো সবচেয়ে কঠিন PII লক্ষ্যগুলোর মধ্যে। কারণটা এখানে।
প্রসঙ্গে নাম: "বোস্টন মেডিকেল সেন্টারের ডা. মারিয়া সান্তোস" একজন ব্যক্তি এবং একটি প্রতিষ্ঠান চিহ্নিত করতে নামযুক্ত সত্তা স্বীকৃতি (NER) প্রয়োজন। কীওয়ার্ড তালিকা এটি খুঁজে পাবে না।
গল্পে নাম: "জন হেন্ডারসনের গাড়ি আমারটায় ধাক্কা মেরেছিল" একটি গল্পের মধ্যে বাস্তব নাম রাখে। এটি পাশ দিয়ে উল্লেখিত একজন ব্যক্তি। কেবল NER এটি ধরে।
অ-মানক বিন্যাস: যোগাযোগের তথ্য পড়তে পারে "margaret dot wells at gmail-এ যোগাযোগ করুন।" সাধারণ regex টুল এগুলো মিস করে।
গবেষণা-নির্দিষ্ট শব্দ: ক্লিনিকাল সার্ভেতে প্রায়ই হাসপাতাল আইডি, সাইট কোড এবং স্থানের নাম থাকে। এগুলো সাধারণ মনে হলেও একজন ব্যক্তিকে শনাক্ত করতে পারে।
তাই শুধু প্যাটার্ন মিলানো যথেষ্ট নয়। বাস্তব সার্ভে বেনামীকরণের জন্য NLP-ভিত্তিক টুল প্রয়োজন। প্রযুক্তিগত বিকল্পের জন্য নিরাপত্তা ও সম্মতি দেখুন।
তিন বিশ্ববিদ্যালয়ের একটি বাস্তব উদাহরণ
তিনটি ইউরোপীয় বিশ্ববিদ্যালয়ের একটি গবেষণা দল একটি রোগীর অভিজ্ঞতার সার্ভে পরিচালনা করেছিল। ডেটাসেটে ৫,০০০ উত্তরদাতা, ৩টি নির্দিষ্ট PII কলাম এবং ৮টি মুক্ত-টেক্সট কলাম ছিল। পরিকল্পনা ছিল DSA এবং GDPR অনুচ্ছেদ ৮৯-এর অধীনে সাইটগুলোতে ফাইলটি শেয়ার করা।
শুধু কলাম মুছলে:
- নির্দিষ্ট PII কলাম: সরানো হয়েছে
- মুক্ত-টেক্সট কলাম: কাঁচা রেখে দেওয়া হয়েছে
- দাবি: "PII কলাম মুছা হয়েছে"
- পিছনে রেখে যাওয়া PII: ৪৭ জন নামযুক্ত ব্যক্তি, মন্তব্যে ২৩টি ইমেইল ঠিকানা, ১৮টি স্থানের নাম যা উত্তরদাতাদের শনাক্ত করতে পারে
NLP-ভিত্তিক সনাক্তকরণ দিয়ে:
- নির্দিষ্ট PII কলাম: সামঞ্জস্যপূর্ণ টোকেন দিয়ে প্রতিস্থাপিত
- মুক্ত-টেক্সট কলাম: ৪৭টি নাম প্রতিস্থাপিত, ২৩টি ইমেইল মাস্ক করা, ১৮টি স্থানের নাম জেনেরিক করা হয়েছে ("বোস্টন মেডিকেল সেন্টার" → "[স্বাস্থ্যসেবা প্রতিষ্ঠান]")
- ফলাফল: GDPR রিসাইটাল ২৬ পাস করা একটি ফাইল
- নৈতিকতা বোর্ড পদ্ধতিটি অনুমোদন করেছে
- DPO DSA সম্মতি নিশ্চিত করেছে
পার্থক্যটি বাস্তব। প্রথম আউটপুট পরিষ্কার দেখায়। দ্বিতীয় আউটপুট সত্যিই পরিষ্কার।
শেয়ারিং-পূর্ব পাঁচ-ধাপের প্রোটোকল
যেকোনো সার্ভে বা সাক্ষাৎকার ফাইল শেয়ার করার আগে এই ধাপগুলো ব্যবহার করুন।
ধাপ ১: প্রতিটি কলাম লেবেল করুন প্রতিটি কলাম নির্দিষ্ট PII, নির্দিষ্ট নন-PII, বা মুক্ত-টেক্সট হিসেবে চিহ্নিত করুন। লিখে রাখুন।
ধাপ ২: নির্দিষ্ট PII পরিচালনা করুন বিশ্লেষণের জন্য প্রয়োজন নেই এমন এন্ট্রি মুছুন। রেকর্ড লিঙ্ক করার জন্য প্রয়োজনীয় এন্ট্রি প্রতিস্থাপন করুন। ব্যবহৃত কোডগুলো রেকর্ড করুন।
ধাপ ৩: মুক্ত-টেক্সট কলাম স্ক্যান করুন সব মুক্ত-টেক্সট কলামে NLP সনাক্তকরণ চালান। প্রতিটি ফলাফল পর্যালোচনা করুন। কোনটি সত্যিকারের PII তা নিশ্চিত করুন।
ধাপ ৪: প্রতিস্থাপন প্রয়োগ করুন
মুক্ত-টেক্সট আউটপুটে নিশ্চিত PII প্রতিস্থাপন করুন। [PERSON], [EMAIL], বা [LOCATION]-এর মতো স্পষ্ট লেবেল ব্যবহার করুন।
ধাপ ৫: যাচাই করুন এবং নথিভুক্ত করুন আউটপুট থেকে ৫০–১০০ সারি নমুনা নিন। মুক্ত-টেক্সট এন্ট্রিগুলো হাতে পরীক্ষা করুন। একটি সংক্ষিপ্ত সারসংক্ষেপ লিখুন: ব্যবহৃত টুল, পাওয়া সত্তার ধরন, প্রক্রিয়াকৃত কলাম। নৈতিকতা পর্যালোচনার জন্য ফাইলের সাথে শেয়ার করুন।
এটি "আমরা নামের কলাম মুছেছি" থেকে একটি স্পষ্ট, নথিভুক্ত প্রক্রিয়ায় পরিণত হয়। এটি GDPR অনুচ্ছেদ ৮৯ এবং বেশিরভাগ নৈতিকতা বোর্ডের প্রয়োজনীয় বেনামীকরণ মানদণ্ড পূরণ করে। সম্পর্কিত গাইডের জন্য আমাদের ডকস হাব দেখুন।
সূত্র
- GDPR অনুচ্ছেদ ৮৯: বৈজ্ঞানিক গবেষণার সুরক্ষা — VERIFIED-EXTERNAL
- GDPR রিসাইটাল ২৬: বেনামীকরণ নীতি — VERIFIED-EXTERNAL
- ICO: বেনামীকরণ এবং ডেটা সুরক্ষা ঝুঁকি — VERIFIED-EXTERNAL