কলাম মুছলে যে ফাঁক থেকে যায়

২০২৬ সালে আপডেট করা হয়েছে

গবেষণা ডেটাসেট বিশ্ববিদ্যালয়গুলোর মধ্যে CSV ফাইল হিসেবে চলাচল করে। দল যখন শেয়ারিংয়ের জন্য CSV প্রস্তুত করে, কাজটা কলাম-কেন্দ্রিক হয়। ব্যক্তিগত তথ্য খোঁজো। মুছে ফেলো বা প্রতিস্থাপন করো।

এই পদ্ধতি নির্দিষ্ট ক্ষেত্রের জন্য কাজ করে। "email" নামের কলামে ইমেইল থাকে — মুছে দাও। "phone" নামের কলামে ফোন নম্বর থাকে — মুছে দাও। "participant_name" নামের কলামে নাম থাকে — কোড দিয়ে বদলে দাও।

কিন্তু মুক্ত-টেক্সট উত্তরের কলামগুলো একটা অন্ধ জায়গা। লেবেলযুক্ত কলাম মুছলেও সেগুলো স্পর্শ করা হয় না।

৫,০০০ সারির একটি সার্ভেতে পাঁচটি কাঠামোবদ্ধ PII কলাম এবং পনেরোটি মুক্ত-টেক্সট উত্তর কলাম থাকতে পারে। কাঠামোবদ্ধ কলামে নাম, ইমেইল, ফোন নম্বর, আইডি এবং জন্মসাল থাকে। মুক্ত-টেক্সট কলামে মন্তব্য, নোট এবং পরামর্শ থাকে।

কাঠামোবদ্ধ কলামগুলো পরিষ্কার করা হয়। মুক্ত-টেক্সট কলামগুলো কাঁচা থেকে যায়। কিন্তু মানুষ এরকম লেখে।

প্রথম উদাহরণ: "বোস্টন মেডিকেল সেন্টারের আমার ডাক্তার, ডা. মারিয়া সান্তোস বলেছিলেন চিকিৎসাটি নতুন।" দ্বিতীয়: "২০১৯ সালের দুর্ঘটনার পর থেকেই আমি এটার সাথে লড়ছি।" তৃতীয়: "বিস্তারিত জানতে আমার কেয়ারগিভার margaret.wells@gmail.com-এ যোগাযোগ করুন।"

প্রতিটি এন্ট্রিতে বাস্তব মানুষের নাম আছে। কেউ কেউ স্বাস্থ্য তথ্য বা যোগাযোগের তথ্য অন্তর্ভুক্ত করেছে। কোনোটিই কলাম হেডারে দেখা যায় না। কোনোটিই কলাম মুছলে ধরা পড়ে না।

GDPR রিসাইটাল ২৬ বেনামী রেকর্ডকে সংজ্ঞায়িত করে এমন রেকর্ড হিসেবে যা কোনো ব্যক্তির সাথে যুক্ত করা যায় না। মানদণ্ড উঁচু। রেকর্ড তখনই সত্যিকার অর্থে বেনামী হয় যখন পুনরায় শনাক্তকরণ যুক্তিসংগতভাবে সম্ভব নয়।

পরিষ্কার নির্দিষ্ট কলাম কিন্তু মুক্ত-টেক্সটে নামওয়ালা মানুষসহ একটি CSV সেই পরীক্ষায় উত্তীর্ণ হয় না। সেই নামগুলো শনাক্তযোগ্য। ডেটাসেটটি এখনও ব্যক্তিগত। GDPR অনুচ্ছেদ ৮৯-এর নিয়ম এখনও প্রযোজ্য। ফলে এই তিনটি ঝুঁকি দেখা দেয়।

অনুচ্ছেদ ৮৯ গবেষণা ছাড়: অনুচ্ছেদ ৮৯ গবেষকদের কম দায়িত্ব নিয়ে বিজ্ঞানের জন্য ব্যক্তিগত তথ্য প্রক্রিয়া করতে দেয়। কিন্তু কেবল যেখানে "উপযুক্ত সুরক্ষা" বিদ্যমান। অনুচ্ছেদ ৮৯-এর আওতা দাবি করে মুক্ত-টেক্সট PII-সহ ফাইল শেয়ার করা আইনগত ব্যর্থতা।

নৈতিকতা অনুমোদন: বেশিরভাগ IRB এবং নৈতিকতা বোর্ড শেয়ার করা ডেটাসেটের জন্য সম্পূর্ণ বেনামীকরণ প্রয়োজন। আংশিক কাজ — নির্দিষ্ট কলাম পরিষ্কার, মুক্ত-টেক্সট কাঁচা — সাধারণত ব্যর্থ হয়। বোর্ড জমা প্রত্যাখ্যান করতে পারে।

ডেটা শেয়ারিং চুক্তি: প্রতিষ্ঠানগুলোর মধ্যে DSA প্রয়োজনীয় বেনামীকরণের মাত্রা নির্ধারণ করে। GDPR রিসাইটাল ২৬ ব্যর্থ আংশিক কাজ DSA লঙ্ঘন করতে পারে। এটি একটি বিস্তৃত কার্যক্রমে কীভাবে ফিট করে তা জানতে আমাদের আইনি সম্মতি ওভারভিউ দেখুন।

কেন মুক্ত-টেক্সট পরিষ্কার করা এত কঠিন

ফ্রি-টেক্সট সার্ভে উত্তরগুলো সবচেয়ে কঠিন PII লক্ষ্যগুলোর মধ্যে। কারণটা এখানে।

প্রসঙ্গে নাম: "বোস্টন মেডিকেল সেন্টারের ডা. মারিয়া সান্তোস" একজন ব্যক্তি এবং একটি প্রতিষ্ঠান চিহ্নিত করতে নামযুক্ত সত্তা স্বীকৃতি (NER) প্রয়োজন। কীওয়ার্ড তালিকা এটি খুঁজে পাবে না।

গল্পে নাম: "জন হেন্ডারসনের গাড়ি আমারটায় ধাক্কা মেরেছিল" একটি গল্পের মধ্যে বাস্তব নাম রাখে। এটি পাশ দিয়ে উল্লেখিত একজন ব্যক্তি। কেবল NER এটি ধরে।

অ-মানক বিন্যাস: যোগাযোগের তথ্য পড়তে পারে "margaret dot wells at gmail-এ যোগাযোগ করুন।" সাধারণ regex টুল এগুলো মিস করে।

গবেষণা-নির্দিষ্ট শব্দ: ক্লিনিকাল সার্ভেতে প্রায়ই হাসপাতাল আইডি, সাইট কোড এবং স্থানের নাম থাকে। এগুলো সাধারণ মনে হলেও একজন ব্যক্তিকে শনাক্ত করতে পারে।

তাই শুধু প্যাটার্ন মিলানো যথেষ্ট নয়। বাস্তব সার্ভে বেনামীকরণের জন্য NLP-ভিত্তিক টুল প্রয়োজন। প্রযুক্তিগত বিকল্পের জন্য নিরাপত্তা ও সম্মতি দেখুন।

তিন বিশ্ববিদ্যালয়ের একটি বাস্তব উদাহরণ

তিনটি ইউরোপীয় বিশ্ববিদ্যালয়ের একটি গবেষণা দল একটি রোগীর অভিজ্ঞতার সার্ভে পরিচালনা করেছিল। ডেটাসেটে ৫,০০০ উত্তরদাতা, ৩টি নির্দিষ্ট PII কলাম এবং ৮টি মুক্ত-টেক্সট কলাম ছিল। পরিকল্পনা ছিল DSA এবং GDPR অনুচ্ছেদ ৮৯-এর অধীনে সাইটগুলোতে ফাইলটি শেয়ার করা।

শুধু কলাম মুছলে:

নির্দিষ্ট PII কলাম: সরানো হয়েছে
মুক্ত-টেক্সট কলাম: কাঁচা রেখে দেওয়া হয়েছে
দাবি: "PII কলাম মুছা হয়েছে"
পিছনে রেখে যাওয়া PII: ৪৭ জন নামযুক্ত ব্যক্তি, মন্তব্যে ২৩টি ইমেইল ঠিকানা, ১৮টি স্থানের নাম যা উত্তরদাতাদের শনাক্ত করতে পারে

NLP-ভিত্তিক সনাক্তকরণ দিয়ে:

নির্দিষ্ট PII কলাম: সামঞ্জস্যপূর্ণ টোকেন দিয়ে প্রতিস্থাপিত
মুক্ত-টেক্সট কলাম: ৪৭টি নাম প্রতিস্থাপিত, ২৩টি ইমেইল মাস্ক করা, ১৮টি স্থানের নাম জেনেরিক করা হয়েছে ("বোস্টন মেডিকেল সেন্টার" → "[স্বাস্থ্যসেবা প্রতিষ্ঠান]")
ফলাফল: GDPR রিসাইটাল ২৬ পাস করা একটি ফাইল
নৈতিকতা বোর্ড পদ্ধতিটি অনুমোদন করেছে
DPO DSA সম্মতি নিশ্চিত করেছে

পার্থক্যটি বাস্তব। প্রথম আউটপুট পরিষ্কার দেখায়। দ্বিতীয় আউটপুট সত্যিই পরিষ্কার।

শেয়ারিং-পূর্ব পাঁচ-ধাপের প্রোটোকল

যেকোনো সার্ভে বা সাক্ষাৎকার ফাইল শেয়ার করার আগে এই ধাপগুলো ব্যবহার করুন।

ধাপ ১: প্রতিটি কলাম লেবেল করুন প্রতিটি কলাম নির্দিষ্ট PII, নির্দিষ্ট নন-PII, বা মুক্ত-টেক্সট হিসেবে চিহ্নিত করুন। লিখে রাখুন।

ধাপ ২: নির্দিষ্ট PII পরিচালনা করুন বিশ্লেষণের জন্য প্রয়োজন নেই এমন এন্ট্রি মুছুন। রেকর্ড লিঙ্ক করার জন্য প্রয়োজনীয় এন্ট্রি প্রতিস্থাপন করুন। ব্যবহৃত কোডগুলো রেকর্ড করুন।

ধাপ ৩: মুক্ত-টেক্সট কলাম স্ক্যান করুন সব মুক্ত-টেক্সট কলামে NLP সনাক্তকরণ চালান। প্রতিটি ফলাফল পর্যালোচনা করুন। কোনটি সত্যিকারের PII তা নিশ্চিত করুন।

ধাপ ৪: প্রতিস্থাপন প্রয়োগ করুন মুক্ত-টেক্সট আউটপুটে নিশ্চিত PII প্রতিস্থাপন করুন। [PERSON], [EMAIL], বা [LOCATION]-এর মতো স্পষ্ট লেবেল ব্যবহার করুন।

ধাপ ৫: যাচাই করুন এবং নথিভুক্ত করুন আউটপুট থেকে ৫০–১০০ সারি নমুনা নিন। মুক্ত-টেক্সট এন্ট্রিগুলো হাতে পরীক্ষা করুন। একটি সংক্ষিপ্ত সারসংক্ষেপ লিখুন: ব্যবহৃত টুল, পাওয়া সত্তার ধরন, প্রক্রিয়াকৃত কলাম। নৈতিকতা পর্যালোচনার জন্য ফাইলের সাথে শেয়ার করুন।

এটি "আমরা নামের কলাম মুছেছি" থেকে একটি স্পষ্ট, নথিভুক্ত প্রক্রিয়ায় পরিণত হয়। এটি GDPR অনুচ্ছেদ ৮৯ এবং বেশিরভাগ নৈতিকতা বোর্ডের প্রয়োজনীয় বেনামীকরণ মানদণ্ড পূরণ করে। সম্পর্কিত গাইডের জন্য আমাদের ডকস হাব দেখুন।

সূত্র

GDPR অনুচ্ছেদ ৮৯: বৈজ্ঞানিক গবেষণার সুরক্ষা — VERIFIED-EXTERNAL
GDPR রিসাইটাল ২৬: বেনামীকরণ নীতি — VERIFIED-EXTERNAL
ICO: বেনামীকরণ এবং ডেটা সুরক্ষা ঝুঁকি — VERIFIED-EXTERNAL

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

CSV ফ্রি-টেক্সট PII: কলাম মুছলেই শেষ নয়

কলাম মুছলে যে ফাঁক থেকে যায়

কেন মুক্ত-টেক্সট পরিষ্কার করা এত কঠিন

তিন বিশ্ববিদ্যালয়ের একটি বাস্তব উদাহরণ

শেয়ারিং-পূর্ব পাঁচ-ধাপের প্রোটোকল

সূত্র

সম্পর্কিত নিবন্ধ

সেলফ-হোস্টেড PII কমপ্লায়েন্স অডিটে ব্যর্থ হয়

Presidio ২২০টিরও বেশি GDPR এন্টিটি মিস করে

কনফিগারেশন ড্রিফট: একটি লুকানো GDPR ঝুঁকি

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

CSV ফ্রি-টেক্সট PII: কলাম মুছলেই শেষ নয়

কলাম মুছলে যে ফাঁক থেকে যায়

কেন এটি GDPR মানদণ্ড পূরণ করে না

কেন মুক্ত-টেক্সট পরিষ্কার করা এত কঠিন

তিন বিশ্ববিদ্যালয়ের একটি বাস্তব উদাহরণ

শেয়ারিং-পূর্ব পাঁচ-ধাপের প্রোটোকল

সূত্র

সম্পর্কিত নিবন্ধ

সেলফ-হোস্টেড PII কমপ্লায়েন্স অডিটে ব্যর্থ হয়

Presidio ২২০টিরও বেশি GDPR এন্টিটি মিস করে

কনফিগারেশন ড্রিফট: একটি লুকানো GDPR ঝুঁকি

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow