anonym.legal
กลับไปที่บล็อกเทคนิค

ปัญหา Precision 22.7% ของ Presidio: ทำไม False...

Benchmark ปี 2024 พบว่า person name recognizer ของ Presidio ทำได้ 22.7% precision ในเอกสารธุรกิจ ซึ่งหมายความว่า 77.3% ของการตรวจจับเป็น false...

April 21, 20267 อ่านประมาณ
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

ปัญหา Precision

ใน benchmark 2024 กับเอกสารธุรกิจจริง:

  • Presidio PERSON recognizer: 22.7% precision
  • นั่นหมายความว่า: 100 การตรวจจับ → 77 false positives

ผลลัพธ์: ข้อความอย่าง 'Apple Inc. announced' ถูก anonymize เป็น '[ORG] Inc. announced' เนื่องจาก 'Apple' ถูกระบุเป็น PERSON

เหตุผลของ False Positives

  1. Ambiguous words: คำที่อาจเป็นชื่อหรือ common word
  2. Product names: ชื่อผลิตภัณฑ์ที่คล้ายชื่อบุคคล
  3. Organization names: บริษัทที่มีชื่อบุคคล
  4. Domain-specific terms: คำทางเทคนิคที่ NER ทั่วไปไม่รู้จัก

ผลกระทบต่อ usability

ถ้า 77% ของ anonymization เป็น false positives ข้อความที่ anonymize แล้วสูญเสีย context และไม่ใช้ได้จริงสำหรับ downstream analysis

วิธีแก้ปัญหา

  • Fine-tune models สำหรับ domain เฉพาะ
  • ใช้ confidence thresholds
  • Allow-list ที่รู้จัก (ชื่อบริษัท, products)

แหล่งที่มา:

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.