Penelitian Baseline LLM PHI 2025
Tim penelitian NIH menjalankan benchmark terbuka 2025 pada deteksi PHI (Protected Health Information) dalam catatan klinis. Mereka menguji lima LLM besar terhadap dataset standar 1000 catatan klinis yang diannotasi secara manual dengan 18 kategori PHI yang relevan HIPAA.
Hasilnya konsisten di semua model: GPT-4, Claude 3, Gemini Pro, Llama 2 dan Mixtral-8x7B semuanya menunjukkan tingkat miss PHI 12-18% pada tes baseline. Artinya, dalam set 100 entitas PHI, setiap model rata-rata melewatkan 12-18 dari mereka.
Tingkat miss ini tidak dapat diterima untuk kepatuhan HIPAA. Aturan HIPAA (45 CFR 164.500-514) mewajibkan identifikasi dan pelindungan semua PHI. Satu entitas PHI yang terlewat — satu nomor Medical Record Number, satu tanggal penerimaan, satu diagnosis — adalah pelanggaran potensial HIPAA yang dapat mengakibatkan denda OCR $100-$50.000 per catatan.