Masalah Tingkat Kesalahan 50%
Sebuah survei tahun 2025 (arXiv:2509.14464) menguji alat berbasis LLM pada rekam medis. Hasilnya mengkhawatirkan: alat-alat ini melewatkan lebih dari 50% PHI klinis dalam dokumen multibahasa. Penyebabnya sederhana — LLM dirancang untuk menghasilkan teks, bukan untuk tugas deteksi dengan recall tinggi yang dituntut HIPAA.
HIPAA Safe Harbor mencantumkan 18 jenis pengenal yang dilindungi: nama, tanggal, nomor telepon, SSN, MRN, ID rencana kesehatan, ID perangkat, dan alamat IP. Masing-masing membutuhkan logika deteksi tersendiri.
Catatan klinis mempersulit hal ini. Perhatikan contoh berikut: "Ps. John D., TTL 4/12/67, MRN 1234567, masuk 03/15/24, Dr. Smith memesan EKG." Satu kalimat. Lima pengenal yang dilindungi. Sebagian besar menggunakan singkatan. Model yang dilatih untuk memahami makna klinis sering gagal pada tugas deteksi ini.
Apa yang Dilewatkan LLM dan Mengapa
Alat berbasis LLM gagal pada rekam medis dengan pola yang dapat diprediksi.
Pengenal dalam bentuk singkat: catatan klinis menggunakan singkatan. TTL, MRN, dan Ps. adalah bentuk umum. Model yang difokuskan pada pemahaman klinis mungkin tidak menandai "Ps. John D." sebagai nama. Ekstraksi data sensitif membutuhkan tujuan yang berbeda.
Tanggal yang bergantung konteks: tidak semua tanggal menghadirkan risiko yang sama. "Usia 67" adalah penanda tidak langsung. "TTL 4/12/67" adalah pengenal yang dilindungi secara langsung. "03/15/24" sebagai tanggal masuk juga dilindungi. Pencocokan pola saja tidak cukup.
Format non-AS: Cyberhaven (Q4 2025) menemukan bahwa 34,8% dari semua input ChatGPT mengandung data bisnis rahasia, termasuk PII multibahasa. Dalam layanan kesehatan, ini berarti ID rekam medis non-AS, format tanggal regional, dan jenis ID kesehatan lokal yang secara konsisten dilewatkan oleh alat yang dilatih pada data AS.
Pengenal rumah sakit khusus: rumah sakit menggunakan format MRN, ID staf, dan kode lokasi milik mereka sendiri. Data ini tidak ada dalam data pelatihan NER standar. Alat tanpa dukungan entitas khusus tidak akan menemukannya.
Risiko Dataset Penelitian
Rumah sakit yang membangun dataset penelitian dari 500.000 catatan menghadapi masalah kepatuhan yang nyata. HIPAA mensyaratkan standar "risiko sangat kecil" pada data yang telah didentifikasi. Alat yang melewatkan separuh dari semua pengenal yang dilindungi tidak dapat memenuhi standar tersebut.
Arsip penelitian bukan data yang bersih. Catatan mencakup berbagai departemen, periode waktu, dan terkadang bahasa yang berbeda. Alat yang bekerja pada data penagihan mungkin gagal pada catatan naratif. Data sensitif dalam teks bebas tidak memiliki label bidang.
Persetujuan IRB menambah persyaratan lebih lanjut. Institusi harus menunjukkan metode yang digunakan, jenis pengenal yang dihapus, dan pemeriksaan yang dilakukan. Alat yang melewatkan separuh dari semua rekam medis tidak dapat memenuhi persyaratan tersebut.
Lihat ikhtisar kepatuhan dan praktik keamanan kami tentang cara anonym.legal mendukung pekerjaan yang sesuai HIPAA.
Solusi Tiga Lapisan
Survei 2025 menemukan satu pola yang jelas. Alat dengan tingkat kesalahan terendah menggunakan tiga lapisan deteksi.
Lapisan pertama — regex: menemukan pengenal terstruktur. SSN, MRN, nomor telepon, ID rencana kesehatan. Andal untuk format tetap.
Lapisan kedua — NER: menggunakan model transformer. Menemukan nama, tanggal, dan data sensitif dalam teks naratif, di mana regex tidak dapat bekerja.
Lapisan ketiga — entitas khusus: menangani format spesifik lokasi. Pola MRN proprietary, ID staf, kode fasilitas. Tidak ada model standar yang mencakup ini.
Alat berbasis ML murni menurun kinerjanya pada bentuk singkat dan teks non-Inggris. Alat berbasis regex murni melewatkan data sensitif yang tidak memiliki label bidang. Keduanya tidak cukup jika berdiri sendiri.
Hanya desain tiga lapisan yang mencapai tingkat kesalahan di bawah 5% dalam survei tersebut. Itulah standar untuk kepatuhan HIPAA Safe Harbor.
Lihat panduan kami tentang de-identifikasi HIPAA Safe Harbor untuk penelitian untuk langkah selanjutnya.