อัปเดตสำหรับปี 2026
ปัญหา Precision 22.7%
การศึกษาปี 2024 ทดสอบ Microsoft Presidio กับแฟ้มธุรกิจ Presidio เป็นเครื่องมือ PII โอเพนซอร์ส ทีมกฎหมายและกลุ่มด้านสุขภาพใช้กันอย่างแพร่หลาย
การศึกษาวัดว่า Presidio ถูกบ่อยแค่ไหน จากรายการทั้งหมดที่มันตั้งค่าธงว่าเป็นชื่อบุคคล มีกี่รายการที่เป็นชื่อบุคคลจริงๆ?
คำตอบคือ 22.7% ประมาณ 77 จาก 100 รายการที่ตั้งค่าธงผิด การศึกษานับ false flag 13,536 รายการ จากแฟ้มตัวอย่าง 4,434 แฟ้ม
ข้อผิดพลาดไม่สุ่ม มันเป็นไปตามรูปแบบที่ชัดเจน:
- คำสรรพนามถูกตั้งค่าธงว่าเป็นบุคคล ("I" ที่ต้นประโยค)
- ป้ายเรือถูกตั้งค่าธงว่าเป็นบุคคล ("ASL Scorpio")
- ป้ายบริษัทถูกตั้งค่าธงว่าเป็นบุคคล ("Deloitte & Touche")
- คำประจำชาติถูกตั้งค่าธงว่าเป็นบุคคล ("Argentina," "Singapore")
ไม่มีรายการเหล่านี้ที่เป็นกรณีขอบหายาก มันปรากฏเมื่อโมเดล NLP ทั่วไปพบกับข้อความเฉพาะโดเมน โมเดลไม่ได้ถูกสร้างมาเพื่อแยกแยะมัน
ค่าใช้จ่ายของ False Flag
ในงานด้านกฎหมายและสุขภาพ ทุกค่าธงต้องการการตอบสนอง ทีมเผชิญสามตัวเลือก ทั้งสามมีต้นทุนจริง
ตัวเลือก 1: มนุษย์ตรวจสอบทุกค่าธง เวลาทนายความและผู้เชี่ยวชาญอยู่ที่ $200 ถึง $800 ต่อชั่วโมง ที่ความแม่นยำ 22.7% ปริมาณนั้นมหาศาล มันไม่สามารถทำได้ในขนาดใหญ่ ดู eDiscovery PII Automation and Legal Review Cost Reduction สำหรับวิธีที่ต้นทุน review เติบโตตามปริมาณ
ตัวเลือก 2: ข้าม review และเชื่อ output นี่ก็มีความเสี่ยงเช่นกัน เมื่อ 77% ของรายการที่ "แก้ไขแล้ว" ไม่ละเอียดอ่อน คุณสร้างความเสี่ยงทางกฎหมาย ศาลได้ปรับทนายความสำหรับการแก้ไขเกินขอบเขต ดู eDiscovery Over-Redaction Sanctions สำหรับคดีที่บันทึกไว้
ตัวเลือก 3: เพิ่ม threshold คะแนน Presidio อนุญาตให้ผู้ใช้ตั้ง score_threshold เพื่อลดค่าธงที่อ่อนแอ การศึกษา DICOM ปี 2024 ทดสอบที่ 0.7 — มาตรฐานที่ค่อนข้างสูง ผลลัพธ์: 38 จาก 39 รูปภาพ DICOM ยังคงมี false flag Threshold ช่วยได้ มันไม่แก้สาเหตุที่แท้จริง
เหตุใด NLP ทั่วไปจึงประสบปัญหาที่นี่
ช่องว่าง Presidio มาจากความไม่ตรงกันระหว่างข้อมูลฝึกอบรมและการใช้งานในโลกจริง
แฟ้มกฎหมายเต็มไปด้วยคำตัวพิมพ์ใหญ่ ชื่อคดี ชื่อกฎหมาย และรหัสเอกสารแนบล้วนดูเหมือนข้อมูลส่วนบุคคลสำหรับโมเดลทั่วไป มันตั้งค่าธง ส่วนใหญ่ไม่ใช่ข้อมูลส่วนบุคคล
แฟ้มสุขภาพเพิ่มชื่อยา รหัสอุปกรณ์ และคำย่อทางคลินิก "Pt." หมายถึง Patient "Dr." หมายถึง Doctor สิ่งเหล่านี้ทำให้การตรวจจับเอนทิตีสะดุดในแบบที่ยากจะคาดเดา
แฟ้มการเงินมีรหัสสินค้า สตริงเอนทิตี และรหัสบัญชีที่มีรูปแบบผิวเผินเหมือนกับบันทึกส่วนบุคคล
การ fine-tune โมเดลบนข้อมูลโดเมนช่วยได้ แต่ต้องใช้เวลาและความพยายามในการสร้างและรักษาให้ทันสมัย
วิธีที่การตรวจจับแบบ Hybrid แก้ปัญหานี้
ปัญหา false flag มีวิธีแก้ที่ชัดเจน แยกงานตามประเภทข้อมูล
กฎรูปแบบสำหรับข้อมูลที่มีโครงสร้าง หมายเลข social security หมายเลขโทรศัพท์ ที่อยู่อีเมล และรูปแบบ ID เป็นไปตามกฎที่ตายตัว สตริงจะตรงกับรูปแบบและผ่านการทดสอบ check digit หรือไม่ ไม่มี false flag สำหรับชุดกฎที่ถูกต้อง
โมเดลภาษาสำหรับข้อความอิสระ ชื่อนาม-นามสกุล ป้ายบริษัท และสถานที่ในร้อยแก้วขาดโครงสร้างที่เข้มงวด NLP หาพวกมันเมื่อกฎทำไม่ได้ คะแนนความเชื่อมั่นและการตรวจสอบบริบทลดอัตรา false flag
การตั้ง threshold ต่อประเภทสำหรับการควบคุมที่ละเอียด ทีมกฎหมายที่ไม่สามารถเสี่ยงการแก้ไขเกินขอบเขตตั้ง threshold สูงสำหรับการจับคู่แบบ fuzzy ทีมวิจัยที่ต้องการ recall สูงตั้งต่ำกว่า ดู Binary PII Detection and Confidence Scoring for Compliance สำหรับวิธีการทำงานของระดับคะแนนในทางปฏิบัติ
ผลลัพธ์คือข้อผิดพลาดน้อยกว่าค่าเริ่มต้น Presidio มาก Recall ยังคงแข็งแกร่งในที่ที่กฎอย่างเดียวจะพลาดมากเกินไป
สำหรับทีมกฎหมายและสุขภาพ คำถามสำคัญไม่ใช่ว่า false flag มีอยู่หรือไม่ มันมีอยู่เสมอในระบบ NLP คำถามคือเครื่องมืออนุญาตให้คุณตั้ง วัด และบันทึกการแลกเปลี่ยนนั้นหรือไม่