Presidio-এর ২২.৭% প্রিসিশন সমস্যা

PII ডিটেকশনে মিথ্যা ইতিবাচক বাস্তব ক্ষতি করে। যখন আপনার টুল যা "ব্যক্তির নাম" হিসেবে ফ্ল্যাগ করে তার ৭৭.৩% আসলে নাম নয়, তখন আপনি গোপনীয়তা রক্ষা করছেন না। আপনি ডেটা নষ্ট করছেন।

২০২৪ সালের একটি বেঞ্চমার্ক ব্যবসায়িক ডকুমেন্টে Microsoft Presidio-এর ডিফল্ট NER মডেল পরীক্ষা করেছে। পরীক্ষায় আর্থিক প্রতিবেদন, গ্রাহক চিঠি, পণ্য ডকুমেন্ট এবং সাপোর্ট টিকেট অন্তর্ভুক্ত ছিল। ফলাফল: নাম ডিটেকশনে ২২.৭% প্রিসিশন।

এই সংখ্যাটি আশ্চর্যজনক। প্রতি ১০০টি ফ্ল্যাগ করা আইটেমের মধ্যে ২৩টি আসল ব্যক্তির নাম। বাকি ৭৭টি মিথ্যা ইতিবাচক — পণ্যের লেবেল, ব্র্যান্ড শব্দ বা শহরের লেবেল।

চারটির মধ্যে তিনটি ডিটেকশন ভুল। এটি একটি ছোট ক্যালিব্রেশন সমস্যা নয়। ব্যবসায়িক ডকুমেন্টের কাজের জন্য এটি একটি ভাঙা টুল।

এটি কেন হয়

Presidio ডিফল্টে spaCy-এর en_core_web_lg মডেল ব্যবহার করে। এই মডেল সংবাদ পাঠ্য থেকে শিখেছে। সংবাদে বেশিরভাগ প্রপার নাউন আসল মানুষ বা স্থান।

ব্যবসায়িক ডকুমেন্ট আলাদা।

পণ্যের লেবেল যা ব্যক্তির নামের মতো দেখায়। "Apple iPhone 15 Pro shipment records" PERSON হিসেবে ফ্ল্যাগ হয়। "Samsung Galaxy Tab" এবং "Cisco Meraki deployment"-ও একই ঘটনা।

নামের মতো অংশযুক্ত কোম্পানির শব্দ। "Johnson Controls results"-এ, "Johnson" শব্দটি PERSON হিসেবে ফ্ল্যাগ হয়। "Goldman Sachs portfolio" একই ত্রুটি ঘটায়।

লোকেশন লেবেল যা পার্সন ডিটেকশন ট্রিগার করে। "Victoria Harbour project" "Victoria"-কে PERSON হিসেবে ফ্ল্যাগ করে। "Santiago hub" "Santiago"-কে একইভাবে ফ্ল্যাগ করে।

মডেলে "Apple" (কোম্পানি) এবং "Apple Smith" (একজন ব্যক্তি) এর মধ্যে পার্থক্য করার প্রসঙ্গ নেই। এই ব্যবধানই বেশিরভাগ মিথ্যা ইতিবাচকের মূল। সংবাদ পাঠ্য এটিকে প্রপার নাউনকে মানুষ বা স্থান হিসেবে গণ্য করতে শিখিয়েছে। ব্যবসায়িক পাঠ্য সেই নিয়ম সবসময় ভাঙে।

ডাউনস্ট্রিম প্রভাব

একটি ডেটা ফার্ম গ্রাহকের সমীক্ষা শেয়ার করার আগে পরিষ্কার করতে Presidio ব্যবহার করেছিল। একটি অডিটে চারটি সমস্যা পাওয়া গেছে। প্রথমত, ৪০% সমীক্ষায় পণ্যের লেবেল ভুলভাবে সরানো হয়েছিল। দ্বিতীয়ত, প্রতিটি প্রতিক্রিয়া থেকে শহরের লেবেল মুছে ফেলা হয়েছিল। তৃতীয়ত, বিশ্লেষণ সেট থেকে ব্র্যান্ডের উল্লেখ মুছে ফেলা হয়েছিল। চতুর্থত, নির্দিষ্ট পণ্য সম্পর্কে অনুভূতি পড়া যাচ্ছিল না।

বিশ্লেষণ দল সমস্ত পণ্যের রেফারেন্স সরানো সহ রিডেক্টেড পাঠ্য পেয়েছিল। সমীক্ষায় মূলত iPhone Pro এবং Apple চার্জার উল্লেখ করা হয়েছিল। সেই অর্থ চলে গিয়েছিল।

ফার্মটি আরও ভালো গোপনীয়তা রক্ষা করছিল না। এটি কমপ্লায়েন্স লাভ ছাড়াই ডেটা ভাঙছিল। অডিটের পরে Presidio প্রতিস্থাপন করা হয়েছিল।

ডিটেকশন মান আপনার নিয়ন্ত্রক অবস্থানকে কীভাবে প্রভাবিত করে সে বিষয়ে আমাদের compliance overview দেখুন।

একটি ভালো পদ্ধতি: হাইব্রিড ডিটেকশন

সমস্যাটি Presidio-এর জন্য অনন্য নয়। প্রসঙ্গ ছাড়া টোকেন-স্তরের NER সবসময় এই সমস্যায় পড়বে। সমাধান হল প্রসঙ্গ-সচেতন ডিটেকশন।

ট্রান্সফর্মার কেন সাহায্য করে: XLM-RoBERTa-এর মতো একটি মডেল সম্পূর্ণ বাক্য পড়ে। "Apple announced its earnings" → Apple একটি ফার্ম। "Apple Smith joined the team" → Apple একটি প্রথম নাম। প্রসঙ্গ আপনাকে বলে কোনটি কোনটি।

এটি রিকল উচ্চ রেখে প্রিসিশন উন্নত করে। নিচে তুলনা দেখুন।

পদ্ধতি	প্রিসিশন	রিকল
Presidio ডিফল্ট NER	২২.৭%	~৮৫%
Regex-only	~৯৫%	~৪০%
হাইব্রিড (Regex + NLP + Transformer)	~৮৫%	~৮০%

হাইব্রিড পদ্ধতি ৮৫% প্রিসিশনে পৌঁছায়। মানে ১৫% মিথ্যা ইতিবাচক হার। ৭৭.৩%-এর চেয়ে অনেক ভালো। ব্যবসায়িক ডকুমেন্টের জন্য এই ব্যবধান গুরুত্বপূর্ণ।

হাইব্রিড স্ট্যাকের চারটি ধাপ:

১. Regex স্তর: কাঠামোগত আইডি খোঁজে — ইমেইল, ফোন নম্বর, SSN, IBAN। ফরম্যাট নির্দিষ্ট, তাই মিথ্যা ইতিবাচক বিরল। এটি প্রথমে চলে।

২. NLP স্তর (spaCy): মানুষ, ফার্ম এবং স্থানের জন্য স্ট্যান্ডার্ড NER। উচ্চ রিকল, কম প্রিসিশন।

৩. Transformer স্তর (XLM-RoBERTa): সম্পূর্ণ বাক্যের প্রসঙ্গ ব্যবহার করে প্রতিটি NLP ফলাফল পুনরায় স্কোর করে। পণ্যের প্রসঙ্গে "Apple" তার এন্টিটি স্কোর হারায়। অভিযোগের পাঠ্যে "John" এটি অর্জন করে।

৪. কনফিডেন্স থ্রেশহোল্ড: শুধুমাত্র একটি নির্দিষ্ট স্কোরের উপরে হিটগুলি আউটপুটে যায়। অ্যানালিটিক্স ব্যবহার ক্ষেত্রে থ্রেশহোল্ড বাড়ান। HIPAA ডি-আইডেন্টিফিকেশনের জন্য কমান।

স্যুইচ করার পরে ফলাফল

অ্যানালিটিক্স ফার্ম হাইব্রিড ডিটেকশনে স্যুইচ করেছে। লাভগুলি স্পষ্ট ছিল। পণ্যের লেবেলের মিথ্যা ইতিবাচক ৪০% থেকে ৩%-এ নেমে এসেছে। শহরের লেবেলের মিথ্যা ইতিবাচক প্রায় শূন্যে নেমেছে। প্রকৃত পরিচয়ের রিকল ~৮২%-এ রয়ে গেছে, ৮৫% থেকে সামান্য কম, কিন্তু প্রিসিশন অনেক উন্নত হয়েছে।

সমীক্ষাগুলি আবার ব্যবহারযোগ্য হয়ে গেছে। "iPhone", "Apple", "Samsung" এবং "Chicago" পাঠ্যে থেকে গেছে। অভিযোগের প্রসঙ্গে গ্রাহকের নামগুলি সঠিকভাবে সরানো হয়েছে।

হাইব্রিড ডিটেকশনে বেশি কম্পিউট লাগে। বড় কাজের জন্য রান টাইম একটু বেশি। বেশিরভাগ ব্যবসায়িক ব্যবহার ক্ষেত্রে, নির্ভুলতার লাভ মূল্যবান। ফার্ম আবার বিশ্লেষণ চালাতে পারে। এটিই সমীক্ষা ডেটার মূল উদ্দেশ্য ছিল।

আমাদের ডিটেকশন পদ্ধতি সম্পর্কে পড়ুন security overview-এ।

কখন উচ্চ মিথ্যা ইতিবাচক হার গ্রহণযোগ্য

কিছু ক্ষেত্রে প্রিসিশনের চেয়ে রিকলকে প্রাধান্য দেওয়া হয়।

HIPAA Safe Harbor: একটি সত্যিকারের ইতিবাচক মিস করা একটি লঙ্ঘন। যদি আসল PHI কখনও মিস না হয় তাহলে ১০% মিথ্যা ইতিবাচক হার ঠিক আছে। অতিরিক্ত অপসারণ কম অপসারণের চেয়ে নিরাপদ।

আইনি পর্যালোচনা: একটি বিশেষাধিকারী যোগাযোগ মিস করা বিশেষাধিকার মওকুফ করতে পারে। মিথ্যা ইতিবাচকের পর্যালোচনা দরকার কিন্তু দায় তৈরি করে না।

ব্যবসায়িক অ্যানালিটিক্স: অতিরিক্ত অপসারণ কমপ্লায়েন্স লাভ ছাড়াই ডেটা ভাঙে। এখানে প্রিসিশন বেশি গুরুত্বপূর্ণ। উচ্চ কনফিডেন্স থ্রেশহোল্ড সহ হাইব্রিড পদ্ধতি ব্যবহার করুন। এটি আউটপুটে ব্র্যান্ড লেবেল এবং শহরের শব্দ রাখে। শুধুমাত্র আসল ব্যক্তির নামগুলি সরানো হয়।

সঠিক ভারসাম্য আপনার ব্যবহার ক্ষেত্রের উপর নির্ভর করে। যে টুলগুলি থ্রেশহোল্ড সেট করতে দেয় সেগুলি আপনাকে নিয়ন্ত্রণ দেয়। কোনো একক ডিফল্ট প্রতিটি প্রসঙ্গের জন্য কাজ করে না।

থ্রেশহোল্ড এবং ডিটেকশন মোড সম্পর্কে সাধারণ প্রশ্নের জন্য আমাদের FAQ দেখুন।

উপসংহার

২২.৭% প্রিসিশন মানে ৪টির মধ্যে ৩টি ডিটেকশন ভুল। ব্যবসায়িক ডকুমেন্টের জন্য, এটি বিশ্লেষণের জন্য আউটপুট অব্যবহারযোগ্য করে তোলে। এটি কমপ্লায়েন্স সম্পর্কে মিথ্যা আস্থাও দেয়।

হাইব্রিড ডিটেকশন এটি ঠিক করে। এটি regex, NLP এবং transformer স্কোরিং একত্রিত করে। অ্যানোনিমাইজেশনের পরেও ডেটা কার্যকর থাকে। আসল ব্যক্তির নামগুলি সরানো হয়। ব্র্যান্ড লেবেল, শহরের শব্দ এবং পণ্যের পরিচয়কারক থেকে যায়।

মিথ্যা ইতিবাচক সমস্যার কারণে Presidio ছেড়ে দিলে, এটি এগিয়ে যাওয়ার পথ। একই মডেলের নতুন কনফিগ নয়। ব্যবসায়িক ডকুমেন্টের প্রসঙ্গের জন্য তৈরি ভিন্ন আর্কিটেকচার।

সূত্র

Priva PII Benchmark 2024: Presidio Precision Evaluation.

Microsoft Presidio: Supported Entities and Model Architecture.

spaCy: en_core_web_lg Training Data and Limitations.

Presidio-এর ২২.৭% প্রিসিশন সমস্যা