ব্লগে ফিরে যানপ্রযুক্তিগত

Presidio-এর 22.7% নির্ভুলতা সমস্যা: কেন False...

একটি 2024 বেঞ্চমার্ক খুঁজে পেয়েছে Presidio-এর person নাম recognizer ব্যবসায়িক নথিতে 22.7% নির্ভুলতা অর্জন করে...

April 21, 20267 মিনিট পড়া
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidio-এর 22.7% নির্ভুলতা সমস্যা: কেন False Positives আপনার গোপনীয়করণ ফলাফল ধ্বংস করছে

PII সনাক্তকরণে false positives একটি minor বিরক্তি নয়। যখন 77.3% যা আপনার টুল "person নাম" হিসাবে flags সেগুলি person নাম নয়, আপনি গোপনীয়তা রক্ষা না করছে — আপনি ডেটা ধ্বংস করছে।

Microsoft Presidio-এর default NER (Named Entity Recognition) মডেলের 2024 বেঞ্চমার্ক অধ্যয়ন ব্যবসায়িক নথি প্রসঙ্গে নির্ভুলতা মূল্যায়ন করেছে: আর্থিক রিপোর্ট, গ্রাহক সংযোগ, পণ্য নথি, এবং সাপোর্ট টিকেট। ফলাফল: person নাম সনাক্তকরণের জন্য 22.7% নির্ভুলতা।

অর্থ 100 সনাক্তকরণের জন্য flagged person নাম:

  • 23 প্রকৃত person নাম (সঠিকভাবে সনাক্ত)
  • 77 false positives (পণ্য নাম, কোম্পানি নাম, স্থান নাম, ব্র্যান্ড উল্লেখ)

কেন এটি ঘটে

Presidio-এর default person নাম recognizer spaCy-এর en_core_web_lg মডেল ব্যবহার করে NER এর জন্য। এই মডেল প্রাথমিকভাবে news পাঠ্যে প্রশিক্ষিত হয়েছে — যেখানে বেশিরভাগ proper বিষয়গুলি প্রকৃত মানুষ, সংস্থা, বা স্থান যা news নিবন্ধ আলোচনা।

ব্যবসায়িক নথি ভিন্ন:

পণ্য নাম যা person নামের মতো দেখায়:

  • "Apple iPhone 15 Pro shipment রেকর্ড..." → PERSON হিসাবে flagged
  • "Samsung Galaxy Tab" → PERSON হিসাবে flagged
  • "Cisco Meraki deployment" → PERSON হিসাবে flagged

কোম্পানি নাম person নাম কাঠামো সহ:

  • "Johnson Controls quarterly ফলাফল" → "Johnson" PERSON হিসাবে flagged
  • "Goldman Sachs portfolio" → "Goldman" PERSON হিসাবে flagged
  • "BlackRock investment thesis" → PERSON হিসাবে flagged

**Pl...

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।