anonym.legal

By · Last updated 2026-06-05

กลับไปที่บล็อกเทคนิค

ปัญหา Precision 22.7% ของ Presidio

Benchmark ปี 2024 พบว่า recognizer ชื่อบุคคลของ Presidio มี precision เพียง 22.7% ในเอกสารทางธุรกิจ หมายความว่า 77.3% ของการตรวจจับเป็น false positive

June 5, 20267 อ่านประมาณ
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

ปัญหา Precision 22.7% ของ Presidio

False positive ในการตรวจจับ PII สร้างความเสียหายจริง เมื่อ 77.3% ของสิ่งที่เครื่องมือของคุณระบุว่าเป็น "ชื่อบุคคล" ไม่ใช่ชื่อจริง คุณไม่ได้คุ้มครองความเป็นส่วนตัว คุณกำลังทำลายข้อมูล

Benchmark ปี 2024 ทดสอบโมเดล NER เริ่มต้นของ Microsoft Presidio กับเอกสารทางธุรกิจ การทดสอบครอบคลุมรายงานทางการเงิน จดหมายลูกค้า เอกสารผลิตภัณฑ์ และ ticket สนับสนุน ผล: precision 22.7% สำหรับการตรวจจับชื่อ

ตัวเลขนั้นน่าตกใจ ใน 100 รายการที่ถูกตั้งค่าสถานะ มี 23 รายการที่เป็นชื่อบุคคลจริง ส่วนที่เหลืออีก 77 รายการเป็น false positive — ชื่อผลิตภัณฑ์ ชื่อแบรนด์ หรือชื่อเมือง

สามในสี่ของการตรวจจับผิดพลาด ไม่ใช่ปัญหาการปรับแต่งเล็กน้อย มันคือเครื่องมือที่ใช้งานไม่ได้สำหรับเอกสารทางธุรกิจ

ทำไมสิ่งนี้เกิดขึ้น

Presidio ใช้โมเดล en_core_web_lg ของ spaCy เป็นค่าเริ่มต้น โมเดลนี้เรียนรู้จากข้อความข่าว ในข่าว คำนามเฉพาะส่วนใหญ่เป็นบุคคลหรือสถานที่จริง

เอกสารทางธุรกิจแตกต่างออกไป

ชื่อผลิตภัณฑ์ที่ดูเหมือนชื่อบุคคล "Apple iPhone 15 Pro shipment records" ถูกตั้งสถานะเป็น PERSON เช่นเดียวกับ "Samsung Galaxy Tab" และ "Cisco Meraki deployment"

คำศัพท์บริษัทที่มีส่วนที่เหมือนชื่อ ใน "Johnson Controls results" คำว่า "Johnson" ถูกตั้งสถานะเป็น PERSON "Goldman Sachs portfolio" ก็กระตุ้นข้อผิดพลาดเดียวกัน

ชื่อสถานที่ที่กระตุ้นการตรวจจับบุคคล "Victoria Harbour project" ตั้งสถานะ "Victoria" เป็น PERSON "Santiago hub" ก็ทำแบบเดียวกัน

โมเดลขาด context ในการแยกแยะ "Apple" (บริษัท) จาก "Apple Smith" (บุคคล) ช่องว่างนั้นคือต้นตอของ false positive ส่วนใหญ่ ข้อความข่าวสอนให้มันปฏิบัติกับคำนามเฉพาะว่าเป็นบุคคลหรือสถานที่ เอกสารธุรกิจทำลายกฎนั้นตลอดเวลา

ผลกระทบที่ตามมา

บริษัทข้อมูลแห่งหนึ่งใช้ Presidio เพื่อทำความสะอาดแบบสำรวจลูกค้าก่อนแชร์ การตรวจสอบพบปัญหาสี่อย่าง ประการแรก แบบสำรวจ 40% มีชื่อผลิตภัณฑ์ที่ถูกลบผิดพลาด ประการที่สอง ชื่อเมืองถูกตัดออกจากทุกการตอบสนอง ประการที่สาม การกล่าวถึงแบรนด์ถูกลบออกจากชุดวิเคราะห์ ประการที่สี่ ความรู้สึกเกี่ยวกับผลิตภัณฑ์เฉพาะไม่สามารถอ่านได้

ทีมวิเคราะห์ได้รับข้อความที่ถูกแก้ไขโดยลบการอ้างอิงผลิตภัณฑ์ทั้งหมดออก แบบสำรวจดั้งเดิมระบุ iPhone Pro และ Apple charger ความหมายนั้นหายไปแล้ว

บริษัทไม่ได้คุ้มครองความเป็นส่วนตัวได้ดีขึ้น มันกำลังทำลายข้อมูลโดยไม่ได้รับ compliance Presidio ถูกแทนที่หลังการตรวจสอบ

ดู compliance overview เพื่อดูว่าคุณภาพการตรวจจับส่งผลต่อสถานะ regulatory ของคุณอย่างไร

วิธีการที่ดีกว่า: Hybrid Detection

ปัญหาไม่ได้เป็นของ Presidio เพียงอย่างเดียว NER ระดับ token โดยไม่มี context จะมีปัญหานี้เสมอ การแก้ไขคือการตรวจจับที่รับรู้ context

ทำไม Transformer ช่วยได้: โมเดลอย่าง XLM-RoBERTa อ่านประโยคทั้งหมด "Apple announced its earnings" → Apple คือบริษัท "Apple Smith joined the team" → Apple คือชื่อตัว Context บอกคุณว่าอันไหนคืออะไร

สิ่งนี้ปรับปรุง precision ในขณะที่รักษา recall ให้สูง ดูการเปรียบเทียบด้านล่าง

แนวทางPrecisionRecall
Presidio default NER22.7%~85%
Regex-only~95%~40%
Hybrid (Regex + NLP + Transformer)~85%~80%

วิธี Hybrid บรรลุ precision 85% หมายถึงอัตรา false positive 15% ดีกว่า 77.3% มาก สำหรับเอกสารธุรกิจ ช่องว่างนี้สำคัญ

Hybrid stack มีสี่ขั้นตอน:

  1. ชั้น Regex: ค้นหา ID ที่มีโครงสร้าง — อีเมล, หมายเลขโทรศัพท์, SSN, IBAN รูปแบบคงที่ ดังนั้น false positive หายาก ทำงานก่อน

  2. ชั้น NLP (spaCy): NER มาตรฐานสำหรับบุคคล บริษัท และสถานที่ Recall สูง precision ต่ำกว่า

  3. ชั้น Transformer (XLM-RoBERTa): ให้คะแนนผลลัพธ์ NLP แต่ละรายการใหม่โดยใช้ context ประโยคทั้งหมด "Apple" ใน context ผลิตภัณฑ์สูญเสียคะแนน entity "John" ใน context การร้องเรียนได้คะแนนเพิ่ม

  4. Confidence threshold: เฉพาะผลที่เกินคะแนนที่กำหนดเท่านั้นที่ผ่านไปยังผลลัพธ์ เพิ่ม threshold สำหรับ use case เชิงวิเคราะห์ ลดสำหรับ HIPAA de-identification

ผลหลังการเปลี่ยน

บริษัทวิเคราะห์เปลี่ยนมาใช้ hybrid detection ผลลัพธ์ชัดเจน false positive ของชื่อผลิตภัณฑ์ลดจาก 40% เป็น 3% false positive ของชื่อเมืองใกล้ศูนย์ recall ของข้อมูลประจำตัวจริงอยู่ที่ ~82% ลดลงเล็กน้อยจาก 85% แต่ precision ดีขึ้นมาก

แบบสำรวจใช้งานได้อีกครั้ง "iPhone," "Apple," "Samsung," และ "Chicago" ยังคงอยู่ในข้อความ ชื่อลูกค้าใน context การร้องเรียนถูกลบออกอย่างถูกต้อง

Hybrid detection ใช้คอมพิวท์มากกว่า สำหรับงานขนาดใหญ่ เวลาทำงานนานขึ้นเล็กน้อย สำหรับ use case ธุรกิจส่วนใหญ่ ผลลัพธ์ด้านความแม่นยำคุ้มค่า บริษัทสามารถทำการวิเคราะห์ได้อีกครั้ง นั่นคือจุดประสงค์ทั้งหมดของข้อมูลแบบสำรวจ

อ่านเกี่ยวกับวิธีการตรวจจับของเราใน security overview

เมื่ออัตรา False Positive สูงยอมรับได้

บางกรณีให้ความสำคัญกับ recall มากกว่า precision

HIPAA Safe Harbor: การพลาด true positive คือการละเมิด อัตรา false positive 10% ไม่เป็นไรหากไม่พลาด PHI จริง การลบมากเกินไปปลอดภัยกว่าการลบน้อยเกินไป

การตรวจสอบทางกฎหมาย: การพลาดผู้ติดต่อที่มีสิทธิพิเศษอาจสละสิทธิ์ตามกฎหมาย False positive ต้องตรวจสอบแต่ไม่สร้างความรับผิด

Business analytics: การลบมากเกินไปทำลายข้อมูลโดยไม่ได้ compliance ประโยชน์ Precision สำคัญกว่าที่นี่ ใช้วิธี hybrid ที่มี confidence threshold สูง สิ่งนี้รักษาชื่อแบรนด์และชื่อเมืองไว้ในผลลัพธ์ เฉพาะชื่อบุคคลจริงเท่านั้นที่ถูกลบ

สมดุลที่เหมาะสมขึ้นอยู่กับ use case ของคุณ เครื่องมือที่ให้คุณตั้ง threshold ให้คุณควบคุม ไม่มีค่าเริ่มต้นเดียวที่ใช้ได้กับทุก context

ดู FAQ สำหรับคำถามทั่วไปเกี่ยวกับ threshold และโหมดการตรวจจับ

สรุป

อัตรา precision 22.7% หมายถึง 3 ใน 4 การตรวจจับผิดพลาด สำหรับเอกสารธุรกิจ ทำให้ผลลัพธ์ใช้งานไม่ได้สำหรับการวิเคราะห์ และยังให้ความมั่นใจเท็จเกี่ยวกับ compliance

Hybrid detection แก้ไขสิ่งนี้ รวม regex, NLP และการให้คะแนน transformer ข้อมูลยังคงมีประโยชน์หลัง anonymization ชื่อบุคคลจริงถูกลบ ชื่อแบรนด์ คำศัพท์เมือง และตัวระบุผลิตภัณฑ์ยังคงอยู่

หากคุณออกจาก Presidio เพราะปัญหา false positive นี่คือทางข้างหน้า ไม่ใช่การตั้งค่าใหม่ของโมเดลเดิม แต่เป็นสถาปัตยกรรมที่แตกต่างที่สร้างขึ้นสำหรับ context เอกสารทางธุรกิจ

แหล่งที่มา

Priva PII Benchmark 2024: Presidio Precision Evaluation. VERIFIED-EXTERNAL.

Microsoft Presidio: Supported Entities and Model Architecture. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg Training Data and Limitations. VERIFIED-EXTERNAL.

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.