ภาษีผลบวกปลอมในเครื่องมือตรวจจับ PII
อัปเดตสำหรับปี 2026
เครื่องมือ PII ส่วนใหญ่ถูกประเมินด้วย recall Recall วัดสัดส่วนของ PII จริงที่เครื่องมือตรวจพบ แต่ precision สำคัญพอกัน Precision วัดสัดส่วนของการแจ้งเตือนจากเครื่องมือที่เป็น PII จริงๆ
ความแม่นยำต่ำมีต้นทุนสูง ระบบที่มี recall 95% และ precision 22.7% จะตรวจพบ PII ส่วนใหญ่ แต่สำหรับทุกเอนทิตี PII จริงที่ตั้งค่าธง ระบบยังสร้างการแจ้งเตือนผิดพลาดอีก 3.4 รายการ ในชุดข้อมูลที่มีเอนทิตี PII จริง 10,000 รายการ ระบบดังกล่าวจะสร้างการแจ้งเตือนประมาณ 44,000 รายการ โดยประมาณ 34,000 รายการผิดพลาด แต่ละรายการต้องใช้เวลาตรวจสอบหรือทำให้เกิดการแก้ไขเกินขอบเขต
นี่คือ ภาษีผลบวกปลอม — ต้นทุนค่าโสหุ้ยที่ทีมต้องแบกรับเมื่อใช้ระบบ PII ที่มี recall สูงแต่ precision ต่ำในระดับขนาดใหญ่ ต้นทุนตรงคือเวลาของผู้ตรวจสอบ ต้นทุนทางอ้อมร้ายแรงกว่า: เอกสารที่ถูกแก้ไขเกินขอบเขตซ่อนข้อมูลที่มีประโยชน์ ทำให้งานช้าลง และทำลายความเชื่อมั่นในเครื่องมือ
สิ่งที่ Presidio Issue #1071 แสดงให้เห็น
การอภิปราย GitHub ของ Microsoft Presidio หมายเลข 1071 (2024) บันทึกรูปแบบที่เฉพาะเจาะจง ตัวจดจำ TFN (Tax File Number) และ PCI ใช้การตรวจสอบ checksum ตัวเลขที่ผ่านการตรวจสอบ checksum จะได้รับคะแนน 1.0 — ความเชื่อมั่นสูงสุด โดยไม่ต้องการบริบทของ PII
สาเหตุหลัก: การตรวจสอบคำบริบททำงาน หลัง ขั้นตอน checksum ไม่ใช่ก่อน ตัวเลขที่ผ่าน checksum จะได้คะแนนสูงสุดโดยไม่คำนึงถึงข้อความโดยรอบ ในสเปรดชีตการเงิน ชุดข้อมูลทางวิทยาศาสตร์ หรือไฟล์ log สิ่งนี้ทำให้ output ท่วมไปด้วยการแจ้งเตือนผิดพลาด การกรองด้วย threshold คะแนนไม่สามารถแก้ไขได้ เนื่องจากคะแนนอยู่ที่ระดับสูงสุดแล้ว
รูปแบบที่สองปรากฏใน Presidio issue #999 การแบ่งคำภาษาเยอรมันล้มเหลวกับคำประสม คำอย่าง Bundesbehörde (หน่วยงานของรัฐบาลกลาง) อาจถูกแบ่งอย่างไม่ถูกต้องและถูกติดป้ายว่าเป็นชื่อบุคคล สิ่งนี้สร้างสัญญาณรบกวนในเอกสารภาษาเยอรมัน
ปัญหา Precision 22.7%
Alvaro et al. (2024) ทดสอบ Presidio กับชุดข้อมูลองค์กรหลายภาษา พวกเขาพบ precision 22.7% ในเอกสารจริง น้อยกว่าหนึ่งในสี่ของการแจ้งเตือน Presidio คือ PII จริง สิ่งนี้สอดคล้องกับที่ผู้ปฏิบัติงานรายงาน เครื่องมือที่ปรับแต่งเพื่อ recall อย่างเดียวสร้างสัญญาณรบกวนมากเกินไปสำหรับการใช้งานจริง
การศึกษา DICOM ปี 2024 แสดงให้เห็นว่าการเพิ่ม score_threshold เป็น 0.7 ยังคงทิ้งการแจ้งเตือนผิดพลาดใน 38 จาก 39 รูปภาพทางการแพทย์ threshold ที่ล้างสัญญาณรบกวนในเอกสารประเภทหนึ่งสร้างการตรวจจับที่พลาดในอีกประเภทหนึ่ง
นี่ไม่ใช่ปัญหาเฉพาะของ Presidio threshold ที่ตายตัวใดๆ ก็บังคับให้ต้องแลกเปลี่ยน threshold สูงลด recall แต่ลด false positive threshold ต่ำเพิ่ม recall แต่พองจำนวนการแจ้งเตือน
การให้คะแนนแบบรู้จักบริบท
การแก้ไขคือการให้คะแนนความเชื่อมั่นแบบรู้จักบริบท แทนที่จะให้คะแนนจากการจับคู่รูปแบบเพียงอย่างเดียว ระบบจะเพิ่มความเชื่อมั่นเมื่อพบคำบริบทใกล้กับการจับคู่ และลดคะแนนเมื่อไม่มีบริบท
สำหรับการตรวจจับ TFN: คำอย่าง "tax file number" "TFN" หรือ "Australian tax" ใกล้กับตัวเลขจะเพิ่มคะแนน ตัวเลขที่ผ่าน checksum แต่ไม่มีคำบริบทใกล้เคียงจะได้คะแนนต่ำกว่า threshold การตรวจสอบ การแจ้งเตือนที่ไม่ถูกต้องจะถูกกด
สำหรับสัญญาณรบกวนข้ามภาษา: ประเภทเอนทิตีที่ผูกกับประเทศเฉพาะสามารถกำหนดขอบเขตให้กับเอกสารในภาษาที่ตรงกัน ตัวจดจำ TFN ที่กำหนดขอบเขตสำหรับข้อความภาษาอังกฤษและออสเตรเลียจะลดสัญญาณรบกวน การเรียกใช้กับเนื้อหาภาษาเยอรมันโดยไม่กำหนดขอบเขตคือต้นตอของปัญหา
ชั้นที่สามในระบบ hybrid คือโมเดล transformer ที่อ่านหน้าต่างบริบทแบบเต็มรอบผู้สมัครแต่ละราย ซึ่งสามารถแยกแยะ "John Smith, Patient ID 12345" จากรหัสสินค้าที่ตรงกับรูปแบบชื่อ บริบทแก้ความคลุมเครือที่ regex และ checksum ไม่สามารถทำได้
ดูวิธีที่ เครื่องมือตรวจจับสามชั้น จัดการ precision ในระดับขนาดใหญ่ และ คู่มือการตรวจจับ PII หลายภาษา ครอบคลุมวิธีที่สัญญาณรบกวนข้ามภาษาส่งผลต่อการปฏิบัติตาม GDPR
ขั้นตอนปฏิบัติ
ก่อนปรับใช้เครื่องมือ PII ใดๆ ให้วัด precision — ไม่ใช่แค่ recall
รันเครื่องมือกับชุดเอกสารที่รู้จัก PII และที่รู้จัก non-PII นับการแจ้งเตือนในทั้งสองกลุ่ม คำนวณ true_positives / (true_positives + false_positives) ตัวเลขนี้แสดงภาระการตรวจสอบก่อนที่คุณจะมุ่งมั่นกับการติดตั้ง
สำหรับทีมที่ใช้ Presidio อยู่แล้ว การวิเคราะห์การกระจายคะแนนเป็นเส้นทางที่เร็ว ส่งออกตัวอย่างการตรวจจับพร้อมคะแนนความเชื่อมั่น นับว่ามีกี่รายการที่ได้คะแนนต่ำกว่า 0.6, 0.7 และ 0.8 สัดส่วนการแจ้งเตือนคะแนนสูงจำนวนมากในข้อความที่สะอาดบ่งชี้ปัญหาด้านบริบท ไม่ใช่ปัญหา threshold ภาพรวมการปฏิบัติตามด้านความปลอดภัย อธิบายวิธีบันทึกสิ่งนี้ใน DPIA
แหล่งอ้างอิง
- Microsoft Presidio GitHub Discussion #1071: ผลบวกปลอมอย่างเป็นระบบ
- Microsoft Presidio GitHub Issue #999: รูปแบบผลบวกปลอมในภาษาเยอรมัน
- Alvaro et al. (2024): Presidio precision บนชุดข้อมูลองค์กรหลายภาษา
- การวิเคราะห์ score threshold ของ DICOM — ชุมชน Microsoft Presidio