การศึกษาวิจัย HIPAA ใหม่ล้มเหลว LLM
การศึกษาวิจัยเมื่อไม่นานมานี้จาก HIPAA Journal ทดสอบ ChatGPT 4o, Claude 3.5 Sonnet และ Gemini 2.0 ในการตรวจจับ PHI ในหมายเหตุคลินิก
| LLM | Accuracy (F1) | Precision | Recall (Miss Rate) |
|---|---|---|---|
| John Snow Labs | 96% | 95% | 97% |
| Azure AI Medical | 91% | 90% | 92% |
| GPT-4o | 79% | 82% | 76% |
| Claude 3.5 Sonnet | 81% | 80% | 82% |
| Gemini 2.0 | 78% | 80% | 76% |
ความหมาย HIPAA
โรงพยาบาล 1 ล้านผู้ป่วย:
GPT-4o (79% F1 = 21% miss rate):
- Miss 210,000 บันทึก PHI ที่ไม่ได้ตรวจจับ
- ไม่สอดคล้องกับ HIPAA
- OCR ผลิต liability
John Snow Labs (96% F1 = 4% miss rate):
- Miss เพียง 40,000 บันทึก
- สอดคล้องกับมาตรฐาน HIPAA