ปัญหาอัตราพลาด 50%
การสำรวจปี 2025 (arXiv:2509.14464) ทดสอบเครื่องมือ LLM กับบันทึกทางคลินิก ผลลัพธ์น่าเป็นห่วง เครื่องมือเหล่านี้พลาด PHI ทางคลินิกมากกว่า 50% ในเอกสารหลายภาษา สาเหตุนั้นเข้าใจได้ไม่ยาก LLM ถูกออกแบบมาสำหรับการสร้างข้อความ ไม่ใช่สำหรับงานตรวจจับที่ต้องการ recall สูงอย่างที่ HIPAA กำหนด
HIPAA Safe Harbor ระบุประเภทตัวระบุที่ได้รับการปกป้อง 18 ประเภท ได้แก่ ชื่อ วันที่ หมายเลขโทรศัพท์ SSN MRN รหัสแผนสุขภาพ รหัสอุปกรณ์ และ IP address แต่ละประเภทต้องการตรรกะการตรวจจับเฉพาะของตัวเอง
บันทึกทางคลินิกทำให้ยิ่งยากขึ้น ลองดูตัวอย่างนี้: "Pt. John D., DOB 4/12/67, MRN 1234567, admitted 03/15/24, Dr. Smith ordered ECG." เพียงประโยคเดียวมีตัวระบุที่ได้รับการปกป้องถึงห้ารายการ ส่วนใหญ่ใช้รูปแบบย่อ โมเดลที่สร้างมาเพื่อเข้าใจความหมายทางคลินิกมักล้มเหลวในงานตรวจจับ
สิ่งที่ LLM พลาดและเหตุผล
เครื่องมือ LLM ล้มเหลวในบันทึกทางคลินิกตามรูปแบบที่ชัดเจน
ตัวระบุรูปแบบย่อ: บันทึกทางคลินิกใช้ตัวย่อ DOB, MRN และ Pt. เป็นรูปแบบทั่วไป โมเดลที่ปรับแต่งสำหรับความหมายทางคลินิกอาจไม่ตั้งค่าธง "Pt. John D." ว่าเป็นชื่อ เนื่องจากงานการสกัดข้อมูลละเอียดอ่อนต้องการเป้าหมายที่ต่างออกไป
วันที่ที่ขึ้นอยู่กับบริบท: ไม่ใช่ทุกวันที่มีความเสี่ยงเท่ากัน "Age 67" เป็นตัวบ่งชี้อ่อน ในขณะที่ "DOB 4/12/67" เป็นตัวระบุที่ได้รับการปกป้องโดยตรง และ "03/15/24" ในฐานะวันที่รับเข้าก็ได้รับการปกป้องเช่นกัน การจับคู่รูปแบบเพียงอย่างเดียวไม่เพียงพอ
รูปแบบที่ไม่ใช่ของสหรัฐอเมริกา: Cyberhaven (Q4 2025) พบว่า 34.8% ของ input ทั้งหมดที่ส่งให้ ChatGPT มีข้อมูลละเอียดอ่อน รวมถึง PII หลายภาษา ในด้านสุขภาพ นี่หมายถึงรหัสประจำตัวบันทึกที่ไม่ใช่ของสหรัฐอเมริกา รูปแบบวันที่ในภูมิภาค และประเภท health ID ของท้องถิ่น เครื่องมือที่ฝึกด้วยข้อมูลสหรัฐอเมริกาพลาดรูปแบบเหล่านี้อย่างสม่ำเสมอ
ตัวระบุโรงพยาบาลแบบกำหนดเอง: โรงพยาบาลมีรูปแบบ MRN รหัสพนักงาน และรหัสสถานที่ของตนเอง รายการเหล่านี้ไม่ได้อยู่ในข้อมูลฝึกอบรม NER มาตรฐาน เครื่องมือที่ไม่รองรับเอนทิตีแบบกำหนดเองจะไม่ตรวจพบ
ความเสี่ยงของชุดข้อมูลวิจัย
โรงพยาบาลที่สร้างชุดข้อมูลวิจัยจากบันทึก 500,000 รายการเผชิญกับปัญหาการปฏิบัติตามกฎระเบียบที่แท้จริง HIPAA กำหนดมาตรฐาน "ความเสี่ยงน้อยมาก" สำหรับข้อมูลที่ถอดตัวระบุแล้ว เครื่องมือที่พลาดตัวระบุที่ได้รับการปกป้องครึ่งหนึ่งไม่สามารถผ่านมาตรฐานนั้นได้
คลังข้อมูลวิจัยไม่ใช่ข้อมูลที่สะอาด บันทึกครอบคลุมหลายแผนก หลายช่วงเวลา และบางครั้งหลายภาษา เครื่องมือที่ทำงานได้กับข้อมูลการเรียกเก็บเงินอาจล้มเหลวกับบันทึกที่เป็นการบรรยาย ข้อมูลละเอียดอ่อนในข้อความอิสระไม่มีป้ายกำกับเขตข้อมูล
การอนุมัติ IRB เพิ่มข้อกำหนดมากขึ้น สถาบันต้องแสดงวิธีการที่ใช้ ประเภทตัวระบุที่ลบออก และการตรวจสอบที่ดำเนินการ เครื่องมือที่พลาดบันทึกครึ่งหนึ่งไม่สามารถตอบสนองข้อกำหนดเหล่านั้นได้
ดู ภาพรวมการปฏิบัติตามกฎระเบียบ และ แนวปฏิบัติด้านความปลอดภัย ของเราสำหรับวิธีที่ anonym.legal รองรับงาน HIPAA
การแก้ไขสามชั้น
การสำรวจปี 2025 พบรูปแบบที่ชัดเจน เครื่องมือที่มีอัตราพลาดต่ำที่สุดใช้การตรวจจับสามชั้น
ชั้นที่หนึ่ง — regex: ตรวจจับตัวระบุที่มีโครงสร้าง SSN, MRN, หมายเลขโทรศัพท์, รหัสแผนสุขภาพ เชื่อถือได้กับรูปแบบที่ตายตัว
ชั้นที่สอง — NER: ใช้โมเดล transformer ตรวจจับชื่อ วันที่ และข้อมูลละเอียดอ่อนในข้อความบรรยาย ทำงานได้ในที่ที่ regex ทำไม่ได้
ชั้นที่สาม — เอนทิตีแบบกำหนดเอง: จัดการรูปแบบเฉพาะสถานที่ รูปแบบ MRN ที่เป็นกรรมสิทธิ์ รหัสพนักงาน รหัสสิ่งอำนวยความสะดวก ไม่มีโมเดลมาตรฐานใดครอบคลุมสิ่งเหล่านี้
เครื่องมือ ML ล้วนๆ ลดประสิทธิภาพกับรูปแบบย่อและข้อความที่ไม่ใช่ภาษาอังกฤษ เครื่องมือ regex ล้วนๆ พลาดข้อมูลละเอียดอ่อนที่ไม่มีป้ายกำกับเขตข้อมูล ไม่มีอย่างใดอย่างหนึ่งเพียงพอ
เฉพาะการออกแบบสามชั้นเท่านั้นที่ทำให้อัตราพลาดต่ำกว่า 5% ในการสำรวจ นั่นคือมาตรฐานสำหรับการปฏิบัติตาม HIPAA Safe Harbor
ดูคู่มือของเราเกี่ยวกับ การถอดตัวระบุ HIPAA Safe Harbor สำหรับงานวิจัย สำหรับขั้นตอนถัดไป