ব্লগে ফিরে যানপ্রযুক্তিগত

মিথ্যা ইতিবাচক সমস্যা: বিশুদ্ধ ML রিডাক্ট কেন...

२००२४ বেঞ্চমার্ক Presidio উৎপাদিত १३,५३६ মিথ্যা ইতিবাচক নাম সনাক্তকরণ ४,४३४ নমুনা জুড়ে — পতাকা pronouns...

March 23, 20268 মিনিট পড়া
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

২२.७% নির্ভুলতা সমস্যা উৎপাদনে

একটি २००२४ বেঞ্চমার্ক অধ্যয়ন মাইক্রোসফ্ট Presidio — খোলা-উৎস PII সনাক্তকরণ ইঞ্জিন আইনি প্রযুক্তি ব্যবহৃত, স্বাস্থ্যসেবা এবং এন্টারপ্রাইজ ডেটা সুরক্ষা অ্যাপ্লিকেশন — সনাক্ত করা একটি २२.७% নির্ভুলতা হার ব্যবসায় ডকুমেন্ট সূত্র ব্যক্তি নাম সনাক্তকরণের জন্য।

নির্ভুলতা ইতিবাচক সনাক্তকরণ নির্ভুলতা পরিমাপ: কী শতাংশ আইটেম সরঞ্জাম পতাকা করা হয়েছে "ব্যক্তি নাম" প্রকৃত ব্যক্তি নাম আছে। १२२.७% এ, সম্পর্কে ७७ ১००ফাল ১०० পতাকা মিথ্যা ইতিবাচক হয়।

বেঞ্চমার্ক নথিভুক্ত १३,५३६ মিথ্যা ইতিবাচক নাম সনাক্তকরণ ४,४३४ ডকুমেন্ট নমুনা জুড়ে। মিথ্যা ইতিবাচক অন্তর্ভুক্ত:

  • pronouns পতাকা ব্যক্তি নাম হিসাবে ("আই" বাক্য শুরু জন্য প্রদর্শিত)
  • জাহাজ নাম পতাকা ব্যক্তি নাম হিসাবে ("ASL Scorpio")
  • সংস্থা নাম পতাকা ব্যক্তি নাম হিসাবে ("Deloitte এবং স্পর্শ")
  • দেশ নাম পতাকা ব্যক্তি নাম হিসাবে ("আর্জেন্টিনা," "সিঙ্গাপুর")

এই এড়িয়ে যায়। তারা সিস্টেমেটিক প্যাটার্ন যা উত্থাপিত যখন একটি সাধারণ উদ্দেশ্য NLP মডেল মিশ্র corpora উপর প্রশিক্ষিত ডোমেইন-নির্দিষ্ট ডকুমেন্ট প্রকার প্রয়োগ করা হয় যেখানে সঠিক বিশেষ্য প্রদর্শিত প্রসঙ্গে মডেল প্রশিক্ষিত করা হয় না disambiguate করতে।

মিথ্যা ইতিবাচক খরচ কাঠামো স্কেলে

আইনি এবং স্বাস্থ্যসেবা পরিবেশে, মিথ্যা ইতিবাচক মুক্ত নয়। প্রতিটি আইটেম পতাকা করা একটি প্রস্তাব প্রয়োজন: হয় মানুষ পর্যালোচনা নিশ্চিত করতে অথবা পতাকা প্রত্যাখ্যান, অথবা স্বয়ংক্রিয় প্রসেসিং যে পাতা মিথ্যা ইতিবাচক বিদ্যমান।

**বিকল্প १: H...

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।