২२.७% নির্ভুলতা সমস্যা উৎপাদনে
একটি २००२४ বেঞ্চমার্ক অধ্যয়ন মাইক্রোসফ্ট Presidio — খোলা-উৎস PII সনাক্তকরণ ইঞ্জিন আইনি প্রযুক্তি ব্যবহৃত, স্বাস্থ্যসেবা এবং এন্টারপ্রাইজ ডেটা সুরক্ষা অ্যাপ্লিকেশন — সনাক্ত করা একটি २२.७% নির্ভুলতা হার ব্যবসায় ডকুমেন্ট সূত্র ব্যক্তি নাম সনাক্তকরণের জন্য।
নির্ভুলতা ইতিবাচক সনাক্তকরণ নির্ভুলতা পরিমাপ: কী শতাংশ আইটেম সরঞ্জাম পতাকা করা হয়েছে "ব্যক্তি নাম" প্রকৃত ব্যক্তি নাম আছে। १२२.७% এ, সম্পর্কে ७७ ১००ফাল ১०० পতাকা মিথ্যা ইতিবাচক হয়।
বেঞ্চমার্ক নথিভুক্ত १३,५३६ মিথ্যা ইতিবাচক নাম সনাক্তকরণ ४,४३४ ডকুমেন্ট নমুনা জুড়ে। মিথ্যা ইতিবাচক অন্তর্ভুক্ত:
- pronouns পতাকা ব্যক্তি নাম হিসাবে ("আই" বাক্য শুরু জন্য প্রদর্শিত)
- জাহাজ নাম পতাকা ব্যক্তি নাম হিসাবে ("ASL Scorpio")
- সংস্থা নাম পতাকা ব্যক্তি নাম হিসাবে ("Deloitte এবং স্পর্শ")
- দেশ নাম পতাকা ব্যক্তি নাম হিসাবে ("আর্জেন্টিনা," "সিঙ্গাপুর")
এই এড়িয়ে যায়। তারা সিস্টেমেটিক প্যাটার্ন যা উত্থাপিত যখন একটি সাধারণ উদ্দেশ্য NLP মডেল মিশ্র corpora উপর প্রশিক্ষিত ডোমেইন-নির্দিষ্ট ডকুমেন্ট প্রকার প্রয়োগ করা হয় যেখানে সঠিক বিশেষ্য প্রদর্শিত প্রসঙ্গে মডেল প্রশিক্ষিত করা হয় না disambiguate করতে।
মিথ্যা ইতিবাচক খরচ কাঠামো স্কেলে
আইনি এবং স্বাস্থ্যসেবা পরিবেশে, মিথ্যা ইতিবাচক মুক্ত নয়। প্রতিটি আইটেম পতাকা করা একটি প্রস্তাব প্রয়োজন: হয় মানুষ পর্যালোচনা নিশ্চিত করতে অথবা পতাকা প্রত্যাখ্যান, অথবা স্বয়ংক্রিয় প্রসেসিং যে পাতা মিথ্যা ইতিবাচক বিদ্যমান।
**বিকল্প १: H...