২০২৬ সালের জন্য আপডেট করা হয়েছে

২২.৭% নির্ভুলতার সমস্যা

২০২৪ সালের একটি গবেষণা ব্যবসায়িক ফাইলে Microsoft Presidio পরীক্ষা করেছে। Presidio একটি ওপেন-সোর্স PII টুল। আইনি দল এবং স্বাস্থ্য গ্রুপগুলো এটি ব্যাপকভাবে ব্যবহার করে।

গবেষণাটি পরিমাপ করেছে Presidio কত ঘন ঘন সঠিক ছিল। ব্যক্তির নাম হিসেবে ফ্ল্যাগ করা সমস্ত আইটেমের মধ্যে কতগুলো আসলে ব্যক্তির নাম ছিল?

উত্তর ছিল ২২.৭%। প্রতি ১০০ ফ্ল্যাগের প্রায় ৭৭টি ভুল ছিল। গবেষণাটি ৪,৪৩৪ নমুনা ফাইল জুড়ে ১৩,৫৩৬ মিথ্যা ফ্ল্যাগ গণনা করেছে।

ত্রুটিগুলো এলোমেলো ছিল না। তারা স্পষ্ট প্যাটার্ন অনুসরণ করেছে:

সর্বনাম ব্যক্তি হিসেবে ফ্ল্যাগ করা ("I" একটি বাক্যের শুরুতে)
জাহাজের লেবেল ব্যক্তি হিসেবে ফ্ল্যাগ করা ("ASL Scorpio")
কোম্পানির লেবেল ব্যক্তি হিসেবে ফ্ল্যাগ করা ("Deloitte & Touche")
দেশের পদগুলো ব্যক্তি হিসেবে ফ্ল্যাগ করা ("Argentina", "Singapore")

এগুলোর কোনটিই বিরল প্রান্তিক কেস নয়। যখনই একটি সাধারণ NLP মডেল ডোমেন-নির্দিষ্ট টেক্সটের মুখোমুখি হয় তখন এগুলো প্রদর্শিত হয়। মডেলটি সেগুলো আলাদা করার জন্য তৈরি হয়নি।

মিথ্যা ফ্ল্যাগের খরচ

আইনি এবং স্বাস্থ্যসেবায়, প্রতিটি ফ্ল্যাগের একটি প্রতিক্রিয়া দরকার। দলগুলো তিনটি বিকল্পের মুখোমুখি। সবগুলোর বাস্তব খরচ আছে।

বিকল্প ১: একজন মানুষ প্রতিটি ফ্ল্যাগ পরীক্ষা করে। আইনজীবী এবং বিশেষজ্ঞের সময় ঘণ্টায় $২০০ থেকে $৮০০ পর্যন্ত চলে। ২২.৭% নির্ভুলতায়, পরিমাণ বিশাল। এটি স্কেলে সম্ভাব্য নয়। পর্যালোচনা খরচ ভলিউমের সাথে কীভাবে বৃদ্ধি পায় তার জন্য eDiscovery PII অটোমেশন এবং আইনি পর্যালোচনা খরচ হ্রাস দেখুন।

বিকল্প ২: পর্যালোচনা এড়িয়ে আউটপুট বিশ্বাস করুন। এটিও ঝুঁকিপূর্ণ। যখন "রিডাক্টেড" আইটেমের ৭৭% সংবেদনশীল নয়, আপনি আইনি ঝুঁকি তৈরি করেন। আদালত অতিরিক্ত-রিডাকশনের জন্য আইনজীবীদের জরিমানা করেছে। নথিভুক্ত মামলার জন্য eDiscovery অতিরিক্ত-রিডাকশন নিষেধাজ্ঞা দেখুন।

বিকল্প ৩: স্কোর থ্রেশহোল্ড বাড়ান। Presidio ব্যবহারকারীদের দুর্বল ফ্ল্যাগ বাদ দিতে score_threshold সেট করতে দেয়। ২০২৪ সালের DICOM গবেষণায় এটি ০.৭ এ পরীক্ষা করা হয়েছিল — একটি বেশ উচ্চ বার। ফলাফল: ৩৯টি DICOM ছবির মধ্যে ৩৮টিতে এখনও মিথ্যা ফ্ল্যাগ ছিল। থ্রেশহোল্ড সাহায্য করে। তারা মূল কারণ ঠিক করে না।

কেন সাধারণ NLP এখানে সংগ্রাম করে

Presidio-এর ফাঁক প্রশিক্ষণ ডেটা এবং বাস্তব-বিশ্বের ব্যবহারের মধ্যে একটি মেলবন্ধন সমস্যা থেকে আসে।

আইনি ফাইলে বড় হাতের পদ পূর্ণ। মামলার নাম, আইনের শিরোনাম এবং প্রদর্শনী কোড সবই একটি সাধারণ মডেলে ব্যক্তিগত ডেটার মতো দেখায়। এটি সেগুলো ফ্ল্যাগ করে। বেশিরভাগ ব্যক্তিগত ডেটা নয়।

স্বাস্থ্য ফাইল ওষুধের নাম, ডিভাইস কোড এবং ক্লিনিক্যাল সংক্ষিপ্ত ফর্ম যোগ করে। "Pt." মানে রোগী। "Dr." মানে ডাক্তার। এগুলো এনটিটি সনাক্তকরণকে এমনভাবে আটকায় যা পূর্বানুমান করা কঠিন।

আর্থিক ফাইলে পণ্য কোড, এনটিটি স্ট্রিং এবং অ্যাকাউন্ট আইডি থাকে যা ব্যক্তিগত রেকর্ডের সাথে পৃষ্ঠ প্যাটার্ন শেয়ার করে।

ডোমেন ডেটায় মডেল ফাইন-টিউনিং সাহায্য করে। কিন্তু তৈরি করতে এবং আপ টু ডেট রাখতে সময় এবং প্রচেষ্টা লাগে।

হাইব্রিড সনাক্তকরণ কীভাবে এটি ঠিক করে

মিথ্যা ফ্ল্যাগ সমস্যার একটি স্পষ্ট সমাধান আছে। ডেটা ধরন অনুসারে কাজ বিভক্ত করুন।

কাঠামোগত ডেটার জন্য প্যাটার্ন নিয়ম। সোশ্যাল সিকিউরিটি নম্বর, ফোন নম্বর, ইমেইল ঠিকানা এবং আইডি ফর্ম্যাট নির্দিষ্ট নিয়ম অনুসরণ করে। একটি স্ট্রিং প্যাটার্ন ফিট করে এবং চেক ডিজিট পরীক্ষা পাস করে, অথবা করে না। বৈধ নিয়মের সেটের জন্য শূন্য মিথ্যা ফ্ল্যাগ।

মুক্ত টেক্সটের জন্য ভাষা মডেল। গদ্যে প্রথম এবং শেষ নাম, কোম্পানির লেবেল এবং অবস্থানগুলোর কঠোর কাঠামোর অভাব রয়েছে। NLP সেগুলো খুঁজে পায় যখন নিয়ম পারে না। কনফিডেন্স স্কোর এবং প্রসঙ্গ পরীক্ষা মিথ্যা ফ্ল্যাগের হার কমায়।

সূক্ষ্ম নিয়ন্ত্রণের জন্য প্রতি-ধরন স্কোর সেটিংস। আইনি দল যারা অতিরিক্ত-রিডাকশন ঝুঁকি নিতে পারে না তারা অস্পষ্ট মিলের জন্য উচ্চ থ্রেশহোল্ড সেট করে। গবেষণা দল যাদের উচ্চ রিকল দরকার তারা কম সেট করে। স্কোর টায়ার অনুশীলনে কীভাবে কাজ করে তার জন্য বাইনারি PII সনাক্তকরণ এবং সম্মতির জন্য কনফিডেন্স স্কোরিং দেখুন।

ফলাফল হল Presidio ডিফল্টের চেয়ে অনেক কম ত্রুটি। যেখানে নিয়ম একা অনেক কিছু মিস করত সেখানে রিকল শক্তিশালী থাকে।

আইনি এবং স্বাস্থ্য দলের জন্য, মূল প্রশ্ন হল মিথ্যা ফ্ল্যাগ আছে কিনা তা নয়। NLP সিস্টেমে সবসময় থাকে। প্রশ্ন হল টুলটি আপনাকে ট্রেডঅফ সেট, পরিমাপ এবং নথিভুক্ত করতে দেয় কিনা।

সূত্রসমূহ

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

মিথ্যা পজিটিভ: কেন ML রিডাকশন ব্যর্থ হয়

২২.৭% নির্ভুলতার সমস্যা

মিথ্যা ফ্ল্যাগের খরচ

কেন সাধারণ NLP এখানে সংগ্রাম করে

হাইব্রিড সনাক্তকরণ কীভাবে এটি ঠিক করে

সূত্রসমূহ

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

মিথ্যা পজিটিভ: কেন ML রিডাকশন ব্যর্থ হয়

২২.৭% নির্ভুলতার সমস্যা

মিথ্যা ফ্ল্যাগের খরচ

কেন সাধারণ NLP এখানে সংগ্রাম করে

হাইব্রিড সনাক্তকরণ কীভাবে এটি ঠিক করে

সূত্রসমূহ

সম্পর্কিত নিবন্ধ

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow