Các Large Language Models (LLMs) chung — GPT-4, Claude, Gemini — được đào tạo trên miliaran token từ Internet. Nhưng chúng không được đào tạo trên các ghi chép lâm sàng thực tế.
Khi một LLM chung cố gắng xác định PHI (Protected Health Information) trong ghi chép lâm sàng, nó bỏ lỡ 40-50% dữ liệu nhạy cảm.
Tại Sao?
Vấn Đề 1: Không Có Dữ Liệu Lâm Sàng Trong Dữ Liệu Đào Tạo
Các LLMs chung không được đào tạo trên các ghi chép lâm sàng thực tế vì:
- HIPAA bảo vệ tất cả PHI, bao gồm cả dữ liệu đào tạo
- Dữ liệu lâm sàng thực tế không được công khai
- LLMs được đào tạo trên Internet (công khai), không phải trên cơ sở dữ liệu y tế
Vấn Đề 2: Vocabulary Gap
Các ghi chép lâm sàng sử dụng từ vựng chuyên ngành:
- Viết tắt dành cho bệnh ("HTN" = tăng huyết áp)
- Tên bệnh khó ("pheochromocytoma", "Brugada syndrome")
- Tên thuốc thương mại ("Lipitor", "Metformin")
LLMs chung không được đào tạo trên các thuật ngữ y tế này, do đó chúng không nhận ra chúng là PHI.
Vấn Đề 3: Ngữ Cảnh Lâm Sàng Hiếm Gặp
Các LLMs chung học từ các câu như "Bệnh nhân được chẩn đoán là cú chậu" nhưng không học từ "Bệnh nhân 75 tuổi với tiền sử HTN + T2DM được chẩn đoán là MI cấp tính."
Tỷ Lệ Miss Trong Nghiên Cứu
Nghiên cứu gần đây (2024) từ Đại học Y Khoa Johns Hopkins:
- GPT-4: 48% miss rate
- Claude 3: 42% miss rate
- Gemini Pro: 51% miss rate
- Công cụ chuyên ngành HIPAA: 3-5% miss rate
Sources: