PII ডিটেকশন টুলে মিথ্যা পজিটিভের কর

২০২৬-এর জন্য আপডেট করা হয়েছে

বেশিরভাগ PII টুল রিকল দিয়ে বিচার করা হয়। রিকল পরিমাপ করে টুলটি কতটুকু প্রকৃত PII খুঁজে পায়। কিন্তু প্রিসিশনও সমান গুরুত্বপূর্ণ। প্রিসিশন পরিমাপ করে টুলের কতটুকু অ্যালার্ট প্রকৃত PII।

কম প্রিসিশন ব্যয়বহুল। ৯৫% রিকল এবং ২২.৭% প্রিসিশনের একটি সিস্টেম বেশিরভাগ PII ধরে। তবু প্রতিটি প্রকৃত PII এন্টিটির জন্য এটি ৩.৪টি ভুল অ্যালার্টও তৈরি করে। ১০,০০০ প্রকৃত PII এন্টিটির ডেটাসেটে সেই সিস্টেম প্রায় ৪৪,০০০ অ্যালার্ট তৈরি করে। প্রায় ৩৪,০০০টি ভুল। প্রতিটির জন্য রিভিউ করতে সময় লাগে বা অতিরিক্ত-রিড্যাকশন ঘটে।

এটাই মিথ্যা পজিটিভের কর। এটি সেই ওভারহেড যা যেকোনো দল বড় পরিসরে উচ্চ-রিকল, কম-প্রিসিশন PII সিস্টেম চালালে দেয়। সরাসরি খরচ হলো রিভিউয়ারের সময়। পরোক্ষ খরচ আরও খারাপ: অতিরিক্ত-রিড্যাক্টেড ডকুমেন্ট কার্যকর ডেটা লুকায়, কাজ ধীর করে এবং টুলের প্রতি আস্থা নষ্ট করে।

Presidio ইস্যু #1071 কী দেখায়

Microsoft Presidio GitHub আলোচনা #1071 (2024) একটি নির্দিষ্ট প্যাটার্ন রেকর্ড করে। TFN (ট্যাক্স ফাইল নম্বর) এবং PCI রিকগনাইজার চেকসাম যাচাইকরণ ব্যবহার করে। চেকসাম পাস করা নম্বরগুলো 1.0 স্কোর পায় — সর্বোচ্চ আস্থা। কোনো PII প্রসঙ্গ প্রয়োজন হয় না।

মূল কারণ: প্রসঙ্গ শব্দ পরীক্ষা চেকসাম ধাপের পরে চলে, আগে নয়। চেকসাম পাস করা নম্বর আশেপাশের টেক্সট নির্বিশেষে শীর্ষ স্কোর পায়। আর্থিক স্প্রেডশিট, বৈজ্ঞানিক ডেটাসেট বা লগ ফাইলে এটি ভুল অ্যালার্টে ভরে যায়। স্কোর থ্রেশহোল্ড ফিল্টারিং এটি ঠিক করতে পারে না। স্কোরগুলো ইতিমধ্যে সর্বোচ্চ।

Presidio ইস্যু #999-এ একটি দ্বিতীয় প্যাটার্ন দেখা যায়। জার্মান শব্দ সেগমেন্টেশন যৌগিক বিশেষ্যের জন্য ভেঙে পড়ে। Bundesbehörde (ফেডারেল কর্তৃপক্ষ)-এর মতো শব্দ ভুলভাবে বিভক্ত হয়ে ব্যক্তিগত নাম হিসেবে ট্যাগ হতে পারে। এটি যেকোনো জার্মান-ভাষার ডকুমেন্টে নয়েজ যোগ করে।

২২.৭% প্রিসিশনের সমস্যা

Alvaro et al. (2024) মিশ্র-ভাষার এন্টারপ্রাইজ ডেটাসেটে Presidio পরীক্ষা করেছে। তারা ২২.৭% প্রিসিশন পেয়েছে। বাস্তব ডকুমেন্টে Presidio-র চারটির মধ্যে একটির কম অ্যালার্ট প্রকৃত PII এন্টিটি। এটি প্র্যাকটিশনাররা যা রিপোর্ট করে তার সাথে মেলে। শুধুমাত্র রিকলের জন্য টিউন করা টুল প্রোডাকশন ব্যবহারের জন্য অনেক বেশি নয়েজ তৈরি করে।

২০২৪ সালের একটি DICOM গবেষণা দেখিয়েছে score_threshold 0.7-এ বাড়ালেও ৩৯টি মেডিক্যাল ইমেজের মধ্যে ৩৮টিতে ভুল অ্যালার্ট থেকে যায়। একটি ডকুমেন্ট ধরনে নয়েজ সাফ করে এমন থ্রেশহোল্ড আরেকটিতে মিসড ডিটেকশন তৈরি করে।

এটি শুধুমাত্র Presidio-র সমস্যা নয়। যেকোনো নির্দিষ্ট থ্রেশহোল্ড একটি ট্রেড-অফ বাধ্য করে। উচ্চ থ্রেশহোল্ড নয়েজ কমায় কিন্তু মিস বাড়ায়। কম থ্রেশহোল্ড রিকল বাড়ায় কিন্তু অ্যালার্ট সংখ্যা স্ফীত করে।

প্রসঙ্গ-সচেতন স্কোরিং

সমাধান হলো প্রসঙ্গ-সচেতন আস্থা স্কোরিং। শুধুমাত্র প্যাটার্ন ম্যাচের উপর ভিত্তি করে স্কোর করার পরিবর্তে, সিস্টেম ম্যাচের কাছে প্রসঙ্গ শব্দ থাকলে আস্থা বাড়ায়। প্রসঙ্গ না থাকলে স্কোর কমায়।

TFN ডিটেকশনের জন্য: নম্বরের কাছে "tax file number", "TFN" বা "Australian tax"-এর মতো শব্দ থাকলে স্কোর বাড়ে। চেকসাম পাস করা কিন্তু কাছে কোনো প্রসঙ্গ শব্দ নেই এমন নম্বর রিভিউ থ্রেশহোল্ডের নিচে স্কোর করে। ভুয়া অ্যালার্ট দমন করা হয়।

ক্রস-ভাষার নয়েজের জন্য: নির্দিষ্ট দেশের সাথে যুক্ত এন্টিটি টাইপগুলো ম্যাচিং ভাষার ডকুমেন্টে স্কোপ করা যায়। ইংরেজি এবং অস্ট্রেলিয়ান-ইংরেজি টেক্সটে স্কোপ করা TFN ডিটেক্টর নয়েজ সরিয়ে দেয়। স্কোপিং ছাড়া জার্মান কন্টেন্টে এটি চালানো সমস্যার উৎস।

হাইব্রিড সিস্টেমের তৃতীয় স্তর হলো ট্রান্সফর্মার মডেল। এটি প্রতিটি প্রার্থীর চারপাশে পূর্ণ প্রসঙ্গ উইন্ডো পড়ে। এটি "John Smith, Patient ID 12345" এবং নামের প্যাটার্নের সাথে মেলে এমন পণ্য কোডের মধ্যে পার্থক্য করে। প্রসঙ্গ সেই অস্পষ্টতা সমাধান করে যা রেজেক্স এবং চেকসাম পারে না।

তিন-স্তরীয় ডিটেকশন ইঞ্জিন কীভাবে বড় পরিসরে প্রিসিশন পরিচালনা করে তা দেখুন। মাল্টিলিঙ্গুয়াল PII ডিটেকশন গাইড কভার করে কীভাবে ক্রস-ভাষার নয়েজ GDPR কমপ্লায়েন্সকে প্রভাবিত করে।

ব্যবহারিক পদক্ষেপ

যেকোনো PII টুল মোতায়েনের আগে, শুধু রিকল নয় — প্রিসিশনও পরিমাপ করুন।

জানা PII এবং জানা নন-PII সহ একটি ডকুমেন্ট সেটে টুল চালান। উভয় গ্রুপে অ্যালার্ট গণনা করুন। true_positives / (true_positives + false_positives) গণনা করুন। এই সংখ্যা রোলআউটে প্রতিশ্রুতিবদ্ধ হওয়ার আগে রিভিউ বোঝা প্রকাশ করে।

ইতিমধ্যে Presidio ব্যবহার করা দলগুলোর জন্য, স্কোর বিতরণ বিশ্লেষণ একটি দ্রুত পথ। তাদের আস্থা স্কোর সহ ডিটেকশনের একটি নমুনা এক্সপোর্ট করুন। 0.6, 0.7 এবং 0.8-এর নিচে কতটুকু স্কোর তা গণনা করুন। পরিষ্কার টেক্সটে উচ্চ-স্কোর অ্যালার্টের বড় অংশ একটি প্রসঙ্গ গ্যাপ নির্দেশ করে, থ্রেশহোল্ড সমস্যা নয়। নিরাপত্তা কমপ্লায়েন্স ওভারভিউ DPIA-তে এটি নথিভুক্ত করার পদ্ধতি ব্যাখ্যা করে।

সূত্র

Microsoft Presidio GitHub আলোচনা #1071: পদ্ধতিগত মিথ্যা পজিটিভ
Microsoft Presidio GitHub ইস্যু #999: জার্মান ভাষার মিথ্যা পজিটিভ প্যাটার্ন
Alvaro et al. (2024): মিশ্র-ভাষার এন্টারপ্রাইজ ডেটাসেটে Presidio প্রিসিশন।
DICOM স্কোর থ্রেশহোল্ড বিশ্লেষণ — Microsoft Presidio কমিউনিটি।

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

PII টুলে মিথ্যা পজিটিভের কর

PII ডিটেকশন টুলে মিথ্যা পজিটিভের কর

Presidio ইস্যু #1071 কী দেখায়

২২.৭% প্রিসিশনের সমস্যা

প্রসঙ্গ-সচেতন স্কোরিং

ব্যবহারিক পদক্ষেপ

সূত্র

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

PII টুলে মিথ্যা পজিটিভের কর

PII ডিটেকশন টুলে মিথ্যা পজিটিভের কর

Presidio ইস্যু #1071 কী দেখায়

২২.৭% প্রিসিশনের সমস্যা

প্রসঙ্গ-সচেতন স্কোরিং

ব্যবহারিক পদক্ষেপ

সূত্র

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow