ปัญหา Precision
ใน benchmark 2024 กับเอกสารธุรกิจจริง:
- Presidio PERSON recognizer: 22.7% precision
- นั่นหมายความว่า: 100 การตรวจจับ → 77 false positives
ผลลัพธ์: ข้อความอย่าง 'Apple Inc. announced' ถูก anonymize เป็น '[ORG] Inc. announced' เนื่องจาก 'Apple' ถูกระบุเป็น PERSON
เหตุผลของ False Positives
- Ambiguous words: คำที่อาจเป็นชื่อหรือ common word
- Product names: ชื่อผลิตภัณฑ์ที่คล้ายชื่อบุคคล
- Organization names: บริษัทที่มีชื่อบุคคล
- Domain-specific terms: คำทางเทคนิคที่ NER ทั่วไปไม่รู้จัก
ผลกระทบต่อ usability
ถ้า 77% ของ anonymization เป็น false positives ข้อความที่ anonymize แล้วสูญเสีย context และไม่ใช้ได้จริงสำหรับ downstream analysis
วิธีแก้ปัญหา
- Fine-tune models สำหรับ domain เฉพาะ
- ใช้ confidence thresholds
- Allow-list ที่รู้จัก (ชื่อบริษัท, products)
แหล่งที่มา: