PII ডিটেকশন টুলে মিথ্যা পজিটিভের কর
২০২৬-এর জন্য আপডেট করা হয়েছে
বেশিরভাগ PII টুল রিকল দিয়ে বিচার করা হয়। রিকল পরিমাপ করে টুলটি কতটুকু প্রকৃত PII খুঁজে পায়। কিন্তু প্রিসিশনও সমান গুরুত্বপূর্ণ। প্রিসিশন পরিমাপ করে টুলের কতটুকু অ্যালার্ট প্রকৃত PII।
কম প্রিসিশন ব্যয়বহুল। ৯৫% রিকল এবং ২২.৭% প্রিসিশনের একটি সিস্টেম বেশিরভাগ PII ধরে। তবু প্রতিটি প্রকৃত PII এন্টিটির জন্য এটি ৩.৪টি ভুল অ্যালার্টও তৈরি করে। ১০,০০০ প্রকৃত PII এন্টিটির ডেটাসেটে সেই সিস্টেম প্রায় ৪৪,০০০ অ্যালার্ট তৈরি করে। প্রায় ৩৪,০০০টি ভুল। প্রতিটির জন্য রিভিউ করতে সময় লাগে বা অতিরিক্ত-রিড্যাকশন ঘটে।
এটাই মিথ্যা পজিটিভের কর। এটি সেই ওভারহেড যা যেকোনো দল বড় পরিসরে উচ্চ-রিকল, কম-প্রিসিশন PII সিস্টেম চালালে দেয়। সরাসরি খরচ হলো রিভিউয়ারের সময়। পরোক্ষ খরচ আরও খারাপ: অতিরিক্ত-রিড্যাক্টেড ডকুমেন্ট কার্যকর ডেটা লুকায়, কাজ ধীর করে এবং টুলের প্রতি আস্থা নষ্ট করে।
Presidio ইস্যু #1071 কী দেখায়
Microsoft Presidio GitHub আলোচনা #1071 (2024) একটি নির্দিষ্ট প্যাটার্ন রেকর্ড করে। TFN (ট্যাক্স ফাইল নম্বর) এবং PCI রিকগনাইজার চেকসাম যাচাইকরণ ব্যবহার করে। চেকসাম পাস করা নম্বরগুলো 1.0 স্কোর পায় — সর্বোচ্চ আস্থা। কোনো PII প্রসঙ্গ প্রয়োজন হয় না।
মূল কারণ: প্রসঙ্গ শব্দ পরীক্ষা চেকসাম ধাপের পরে চলে, আগে নয়। চেকসাম পাস করা নম্বর আশেপাশের টেক্সট নির্বিশেষে শীর্ষ স্কোর পায়। আর্থিক স্প্রেডশিট, বৈজ্ঞানিক ডেটাসেট বা লগ ফাইলে এটি ভুল অ্যালার্টে ভরে যায়। স্কোর থ্রেশহোল্ড ফিল্টারিং এটি ঠিক করতে পারে না। স্কোরগুলো ইতিমধ্যে সর্বোচ্চ।
Presidio ইস্যু #999-এ একটি দ্বিতীয় প্যাটার্ন দেখা যায়। জার্মান শব্দ সেগমেন্টেশন যৌগিক বিশেষ্যের জন্য ভেঙে পড়ে। Bundesbehörde (ফেডারেল কর্তৃপক্ষ)-এর মতো শব্দ ভুলভাবে বিভক্ত হয়ে ব্যক্তিগত নাম হিসেবে ট্যাগ হতে পারে। এটি যেকোনো জার্মান-ভাষার ডকুমেন্টে নয়েজ যোগ করে।
২২.৭% প্রিসিশনের সমস্যা
Alvaro et al. (2024) মিশ্র-ভাষার এন্টারপ্রাইজ ডেটাসেটে Presidio পরীক্ষা করেছে। তারা ২২.৭% প্রিসিশন পেয়েছে। বাস্তব ডকুমেন্টে Presidio-র চারটির মধ্যে একটির কম অ্যালার্ট প্রকৃত PII এন্টিটি। এটি প্র্যাকটিশনাররা যা রিপোর্ট করে তার সাথে মেলে। শুধুমাত্র রিকলের জন্য টিউন করা টুল প্রোডাকশন ব্যবহারের জন্য অনেক বেশি নয়েজ তৈরি করে।
২০২৪ সালের একটি DICOM গবেষণা দেখিয়েছে score_threshold 0.7-এ বাড়ালেও ৩৯টি মেডিক্যাল ইমেজের মধ্যে ৩৮টিতে ভুল অ্যালার্ট থেকে যায়। একটি ডকুমেন্ট ধরনে নয়েজ সাফ করে এমন থ্রেশহোল্ড আরেকটিতে মিসড ডিটেকশন তৈরি করে।
এটি শুধুমাত্র Presidio-র সমস্যা নয়। যেকোনো নির্দিষ্ট থ্রেশহোল্ড একটি ট্রেড-অফ বাধ্য করে। উচ্চ থ্রেশহোল্ড নয়েজ কমায় কিন্তু মিস বাড়ায়। কম থ্রেশহোল্ড রিকল বাড়ায় কিন্তু অ্যালার্ট সংখ্যা স্ফীত করে।
প্রসঙ্গ-সচেতন স্কোরিং
সমাধান হলো প্রসঙ্গ-সচেতন আস্থা স্কোরিং। শুধুমাত্র প্যাটার্ন ম্যাচের উপর ভিত্তি করে স্কোর করার পরিবর্তে, সিস্টেম ম্যাচের কাছে প্রসঙ্গ শব্দ থাকলে আস্থা বাড়ায়। প্রসঙ্গ না থাকলে স্কোর কমায়।
TFN ডিটেকশনের জন্য: নম্বরের কাছে "tax file number", "TFN" বা "Australian tax"-এর মতো শব্দ থাকলে স্কোর বাড়ে। চেকসাম পাস করা কিন্তু কাছে কোনো প্রসঙ্গ শব্দ নেই এমন নম্বর রিভিউ থ্রেশহোল্ডের নিচে স্কোর করে। ভুয়া অ্যালার্ট দমন করা হয়।
ক্রস-ভাষার নয়েজের জন্য: নির্দিষ্ট দেশের সাথে যুক্ত এন্টিটি টাইপগুলো ম্যাচিং ভাষার ডকুমেন্টে স্কোপ করা যায়। ইংরেজি এবং অস্ট্রেলিয়ান-ইংরেজি টেক্সটে স্কোপ করা TFN ডিটেক্টর নয়েজ সরিয়ে দেয়। স্কোপিং ছাড়া জার্মান কন্টেন্টে এটি চালানো সমস্যার উৎস।
হাইব্রিড সিস্টেমের তৃতীয় স্তর হলো ট্রান্সফর্মার মডেল। এটি প্রতিটি প্রার্থীর চারপাশে পূর্ণ প্রসঙ্গ উইন্ডো পড়ে। এটি "John Smith, Patient ID 12345" এবং নামের প্যাটার্নের সাথে মেলে এমন পণ্য কোডের মধ্যে পার্থক্য করে। প্রসঙ্গ সেই অস্পষ্টতা সমাধান করে যা রেজেক্স এবং চেকসাম পারে না।
তিন-স্তরীয় ডিটেকশন ইঞ্জিন কীভাবে বড় পরিসরে প্রিসিশন পরিচালনা করে তা দেখুন। মাল্টিলিঙ্গুয়াল PII ডিটেকশন গাইড কভার করে কীভাবে ক্রস-ভাষার নয়েজ GDPR কমপ্লায়েন্সকে প্রভাবিত করে।
ব্যবহারিক পদক্ষেপ
যেকোনো PII টুল মোতায়েনের আগে, শুধু রিকল নয় — প্রিসিশনও পরিমাপ করুন।
জানা PII এবং জানা নন-PII সহ একটি ডকুমেন্ট সেটে টুল চালান। উভয় গ্রুপে অ্যালার্ট গণনা করুন। true_positives / (true_positives + false_positives) গণনা করুন। এই সংখ্যা রোলআউটে প্রতিশ্রুতিবদ্ধ হওয়ার আগে রিভিউ বোঝা প্রকাশ করে।
ইতিমধ্যে Presidio ব্যবহার করা দলগুলোর জন্য, স্কোর বিতরণ বিশ্লেষণ একটি দ্রুত পথ। তাদের আস্থা স্কোর সহ ডিটেকশনের একটি নমুনা এক্সপোর্ট করুন। 0.6, 0.7 এবং 0.8-এর নিচে কতটুকু স্কোর তা গণনা করুন। পরিষ্কার টেক্সটে উচ্চ-স্কোর অ্যালার্টের বড় অংশ একটি প্রসঙ্গ গ্যাপ নির্দেশ করে, থ্রেশহোল্ড সমস্যা নয়। নিরাপত্তা কমপ্লায়েন্স ওভারভিউ DPIA-তে এটি নথিভুক্ত করার পদ্ধতি ব্যাখ্যা করে।
সূত্র
- Microsoft Presidio GitHub আলোচনা #1071: পদ্ধতিগত মিথ্যা পজিটিভ
- Microsoft Presidio GitHub ইস্যু #999: জার্মান ভাষার মিথ্যা পজিটিভ প্যাটার্ন
- Alvaro et al. (2024): মিশ্র-ভাষার এন্টারপ্রাইজ ডেটাসেটে Presidio প্রিসিশন।
- DICOM স্কোর থ্রেশহোল্ড বিশ্লেষণ — Microsoft Presidio কমিউনিটি।