ปัญหาอัตราพลาด 50%

การสำรวจปี 2025 (arXiv:2509.14464) ทดสอบเครื่องมือ LLM กับบันทึกทางคลินิก ผลลัพธ์น่าเป็นห่วง เครื่องมือเหล่านี้พลาด PHI ทางคลินิกมากกว่า 50% ในเอกสารหลายภาษา สาเหตุนั้นเข้าใจได้ไม่ยาก LLM ถูกออกแบบมาสำหรับการสร้างข้อความ ไม่ใช่สำหรับงานตรวจจับที่ต้องการ recall สูงอย่างที่ HIPAA กำหนด

HIPAA Safe Harbor ระบุประเภทตัวระบุที่ได้รับการปกป้อง 18 ประเภท ได้แก่ ชื่อ วันที่ หมายเลขโทรศัพท์ SSN MRN รหัสแผนสุขภาพ รหัสอุปกรณ์ และ IP address แต่ละประเภทต้องการตรรกะการตรวจจับเฉพาะของตัวเอง

บันทึกทางคลินิกทำให้ยิ่งยากขึ้น ลองดูตัวอย่างนี้: "Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG." เพียงประโยคเดียวมีตัวระบุที่ได้รับการปกป้องถึงห้ารายการ ส่วนใหญ่ใช้รูปแบบย่อ โมเดลที่สร้างมาเพื่อเข้าใจความหมายทางคลินิกมักล้มเหลวในงานตรวจจับ

สิ่งที่ LLM พลาดและเหตุผล

เครื่องมือ LLM ล้มเหลวในบันทึกทางคลินิกตามรูปแบบที่ชัดเจน

ตัวระบุรูปแบบย่อ: บันทึกทางคลินิกใช้ตัวย่อ DOB, MRN และ Pt. เป็นรูปแบบทั่วไป โมเดลที่ปรับแต่งสำหรับความหมายทางคลินิกอาจไม่ตั้งค่าธง "Pt. John D." ว่าเป็นชื่อ เนื่องจากงานการสกัดข้อมูลละเอียดอ่อนต้องการเป้าหมายที่ต่างออกไป

วันที่ที่ขึ้นอยู่กับบริบท: ไม่ใช่ทุกวันที่มีความเสี่ยงเท่ากัน "Age 67" เป็นตัวบ่งชี้อ่อน ในขณะที่ "DOB 4/12/67" เป็นตัวระบุที่ได้รับการปกป้องโดยตรง และ "03/15/24" ในฐานะวันที่รับเข้าก็ได้รับการปกป้องเช่นกัน การจับคู่รูปแบบเพียงอย่างเดียวไม่เพียงพอ

รูปแบบที่ไม่ใช่ของสหรัฐอเมริกา: Cyberhaven (Q4 2025) พบว่า 34.8% ของ input ทั้งหมดที่ส่งให้ ChatGPT มีข้อมูลละเอียดอ่อน รวมถึง PII หลายภาษา ในด้านสุขภาพ นี่หมายถึงรหัสประจำตัวบันทึกที่ไม่ใช่ของสหรัฐอเมริกา รูปแบบวันที่ในภูมิภาค และประเภท health ID ของท้องถิ่น เครื่องมือที่ฝึกด้วยข้อมูลสหรัฐอเมริกาพลาดรูปแบบเหล่านี้อย่างสม่ำเสมอ

ตัวระบุโรงพยาบาลแบบกำหนดเอง: โรงพยาบาลมีรูปแบบ MRN รหัสพนักงาน และรหัสสถานที่ของตนเอง รายการเหล่านี้ไม่ได้อยู่ในข้อมูลฝึกอบรม NER มาตรฐาน เครื่องมือที่ไม่รองรับเอนทิตีแบบกำหนดเองจะไม่ตรวจพบ

ความเสี่ยงของชุดข้อมูลวิจัย

โรงพยาบาลที่สร้างชุดข้อมูลวิจัยจากบันทึก 500,000 รายการเผชิญกับปัญหาการปฏิบัติตามกฎระเบียบที่แท้จริง HIPAA กำหนดมาตรฐาน "ความเสี่ยงน้อยมาก" สำหรับข้อมูลที่ถอดตัวระบุแล้ว เครื่องมือที่พลาดตัวระบุที่ได้รับการปกป้องครึ่งหนึ่งไม่สามารถผ่านมาตรฐานนั้นได้

คลังข้อมูลวิจัยไม่ใช่ข้อมูลที่สะอาด บันทึกครอบคลุมหลายแผนก หลายช่วงเวลา และบางครั้งหลายภาษา เครื่องมือที่ทำงานได้กับข้อมูลการเรียกเก็บเงินอาจล้มเหลวกับบันทึกที่เป็นการบรรยาย ข้อมูลละเอียดอ่อนในข้อความอิสระไม่มีป้ายกำกับเขตข้อมูล

การอนุมัติ IRB เพิ่มข้อกำหนดมากขึ้น สถาบันต้องแสดงวิธีการที่ใช้ ประเภทตัวระบุที่ลบออก และการตรวจสอบที่ดำเนินการ เครื่องมือที่พลาดบันทึกครึ่งหนึ่งไม่สามารถตอบสนองข้อกำหนดเหล่านั้นได้

ดู ภาพรวมการปฏิบัติตามกฎระเบียบ และ แนวปฏิบัติด้านความปลอดภัย ของเราสำหรับวิธีที่ anonym.legal รองรับงาน HIPAA

การแก้ไขสามชั้น

การสำรวจปี 2025 พบรูปแบบที่ชัดเจน เครื่องมือที่มีอัตราพลาดต่ำที่สุดใช้การตรวจจับสามชั้น

ชั้นที่หนึ่ง — regex: ตรวจจับตัวระบุที่มีโครงสร้าง SSN, MRN, หมายเลขโทรศัพท์, รหัสแผนสุขภาพ เชื่อถือได้กับรูปแบบที่ตายตัว

ชั้นที่สอง — NER: ใช้โมเดล transformer ตรวจจับชื่อ วันที่ และข้อมูลละเอียดอ่อนในข้อความบรรยาย ทำงานได้ในที่ที่ regex ทำไม่ได้

ชั้นที่สาม — เอนทิตีแบบกำหนดเอง: จัดการรูปแบบเฉพาะสถานที่ รูปแบบ MRN ที่เป็นกรรมสิทธิ์ รหัสพนักงาน รหัสสิ่งอำนวยความสะดวก ไม่มีโมเดลมาตรฐานใดครอบคลุมสิ่งเหล่านี้

เครื่องมือ ML ล้วนๆ ลดประสิทธิภาพกับรูปแบบย่อและข้อความที่ไม่ใช่ภาษาอังกฤษ เครื่องมือ regex ล้วนๆ พลาดข้อมูลละเอียดอ่อนที่ไม่มีป้ายกำกับเขตข้อมูล ไม่มีอย่างใดอย่างหนึ่งเพียงพอ

เฉพาะการออกแบบสามชั้นเท่านั้นที่ทำให้อัตราพลาดต่ำกว่า 5% ในการสำรวจ นั่นคือมาตรฐานสำหรับการปฏิบัติตาม HIPAA Safe Harbor

ดูคู่มือของเราเกี่ยวกับ การถอดตัวระบุ HIPAA Safe Harbor สำหรับงานวิจัย สำหรับขั้นตอนถัดไป

แหล่งอ้างอิง

บทความที่เกี่ยวข้อง

การดูแลสุขภาพ

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.

เริ่มทดลองใช้ฟรี ดูฟีเจอร์

LLM พลาด PHI ทางคลินิกถึง 50%

ปัญหาอัตราพลาด 50%

สิ่งที่ LLM พลาดและเหตุผล

ความเสี่ยงของชุดข้อมูลวิจัย

การแก้ไขสามชั้น

แหล่งอ้างอิง

บทความที่เกี่ยวข้อง

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

LLM พลาด PHI ทางคลินิกถึง 50%

ปัญหาอัตราพลาด 50%

สิ่งที่ LLM พลาดและเหตุผล

ความเสี่ยงของชุดข้อมูลวิจัย

การแก้ไขสามชั้น

แหล่งอ้างอิง

บทความที่เกี่ยวข้อง

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow