Presidio-এর 22.7% নির্ভুলতা সমস্যা: কেন False Positives আপনার গোপনীয়করণ ফলাফল ধ্বংস করছে
PII সনাক্তকরণে false positives একটি minor বিরক্তি নয়। যখন 77.3% যা আপনার টুল "person নাম" হিসাবে flags সেগুলি person নাম নয়, আপনি গোপনীয়তা রক্ষা না করছে — আপনি ডেটা ধ্বংস করছে।
Microsoft Presidio-এর default NER (Named Entity Recognition) মডেলের 2024 বেঞ্চমার্ক অধ্যয়ন ব্যবসায়িক নথি প্রসঙ্গে নির্ভুলতা মূল্যায়ন করেছে: আর্থিক রিপোর্ট, গ্রাহক সংযোগ, পণ্য নথি, এবং সাপোর্ট টিকেট। ফলাফল: person নাম সনাক্তকরণের জন্য 22.7% নির্ভুলতা।
অর্থ 100 সনাক্তকরণের জন্য flagged person নাম:
- 23 প্রকৃত person নাম (সঠিকভাবে সনাক্ত)
- 77 false positives (পণ্য নাম, কোম্পানি নাম, স্থান নাম, ব্র্যান্ড উল্লেখ)
কেন এটি ঘটে
Presidio-এর default person নাম recognizer spaCy-এর en_core_web_lg মডেল ব্যবহার করে NER এর জন্য। এই মডেল প্রাথমিকভাবে news পাঠ্যে প্রশিক্ষিত হয়েছে — যেখানে বেশিরভাগ proper বিষয়গুলি প্রকৃত মানুষ, সংস্থা, বা স্থান যা news নিবন্ধ আলোচনা।
ব্যবসায়িক নথি ভিন্ন:
পণ্য নাম যা person নামের মতো দেখায়:
- "Apple iPhone 15 Pro shipment রেকর্ড..." → PERSON হিসাবে flagged
- "Samsung Galaxy Tab" → PERSON হিসাবে flagged
- "Cisco Meraki deployment" → PERSON হিসাবে flagged
কোম্পানি নাম person নাম কাঠামো সহ:
- "Johnson Controls quarterly ফলাফল" → "Johnson" PERSON হিসাবে flagged
- "Goldman Sachs portfolio" → "Goldman" PERSON হিসাবে flagged
- "BlackRock investment thesis" → PERSON হিসাবে flagged
**Pl...