De-Identifikasi HIPAA Safe Harbor dalam Skala: Panduan untuk Peneliti Kesehatan
Sebuah pusat medis akademis perlu membersihkan 200.000 catatan pemulangan. Tujuannya: membangun model prediksi rawat inap ulang. Alat yang ada berharga $120.000 per tahun. Anggaran hibah untuk pekerjaan data: $5.000.
Kesenjangan ini umum terjadi. Penelitian kesehatan membutuhkan dataset besar. Dataset tersebut berisi informasi kesehatan yang dilindungi (PHI). PHI mencakup nama, tanggal, alamat, dan detail pribadi lainnya. Menghapus PHI memungkinkan peneliti menggunakan data secara legal. Namun alat-alatnya dihargai untuk sistem rumah sakit, bukan hibah penelitian.
HIPAA Safe Harbor: 18 Pengidentifikasi
Metode Safe Harbor HIPAA (45 CFR §164.514(b)) mencantumkan 18 jenis PHI. Semua harus dihapus sebelum data kesehatan kehilangan status "dilindungi". Setelah penghapusan, penelitian dapat berlanjut tanpa persetujuan pasien.
Berikut semua 18 jenis:
- Nama
- Data geografis yang lebih kecil dari negara bagian (kode pos perlu dipotong menjadi 3 digit untuk populasi kecil)
- Semua tanggal kecuali tahun — tanggal masuk, keluar, lahir, meninggal, dan tanggal lainnya
- Nomor telepon
- Nomor faks
- Alamat email
- Nomor jaminan sosial
- Nomor catatan medis
- Nomor penerima manfaat rencana kesehatan
- Nomor akun
- Nomor sertifikat dan lisensi
- Pengidentifikasi dan nomor seri kendaraan
- Pengidentifikasi dan nomor seri perangkat
- URL web
- Alamat IP
- Pengidentifikasi biometrik (sidik jari, cetakan suara)
- Foto wajah penuh dan gambar serupa
- Nomor atau kode pengidentifikasi unik lainnya
Lima yang pertama muncul di hampir setiap catatan pemulangan. Semua harus dihapus atau diubah.
Tanggal membutuhkan perhatian khusus. Setiap tanggal pasien harus mempertahankan tahun tetapi menghilangkan hari dan bulan tertentu. "15 Maret 2023" menjadi "2023." Anda dapat menyimpan durasi sebagai bidang — tetapi hanya setelah tanggal sumber dihapus.
Masalah Skala
Dataset kesehatan yang berguna itu besar:
- Prediksi rawat inap ulang: 50.000–500.000 kunjungan
- Pekerjaan hasil pengobatan: 10.000–100.000 pasien per kondisi
- Efikasi obat: 5.000–50.000 catatan
- Kesehatan populasi: 100.000+ kunjungan
Tinjauan manual dalam skala ini tidak berhasil. Tinjauan 5 menit per catatan membutuhkan 250–2.500 hari kerja untuk 100.000 catatan. Tingkat kesalahan manusia mencapai 1–5%. Bahkan tingkat kesalahan kecil menciptakan risiko HIPAA. Dua peninjau yang memperlakukan tanggal secara berbeda dapat merusak status Safe Harbor. Itu kesalahan mudah dibuat pada dataset besar.
Scrubbing otomatis adalah satu-satunya pilihan nyata. Ini harus menangkap semua 18 jenis di berbagai format yang ditemukan dalam catatan klinis.
Kesenjangan Harga Alat
Alat enterprise menargetkan sistem rumah sakit:
- Datavant: $100.000+/tahun
- Veradigm (Allscripts): harga serupa
- Clinithink CLiX: hanya hubungi penjualan
- Syntegra (data sintetis): harga enterprise
Vendor ini menjual kepada organisasi besar dengan tim hukum dan kepatuhan. Hibah penelitian bukan pasar mereka.
Alat gratis dan open-source ada tetapi membutuhkan keahlian:
- MITRE MIST: gratis, tetapi membutuhkan pengaturan berat dan memiliki dukungan bahasa terbatas
- Stanford NLP DEID: tingkat penelitian, membutuhkan keterampilan Java dan coding
- Alat i2b2 NLP: NLP klinis, pengaturan diperlukan
Sebagian besar peneliti membutuhkan penghapusan PHI yang andal dengan pengaturan sederhana. Alat open-source membutuhkan keterampilan coding dan linguistik untuk dijalankan. Mereka juga membutuhkan pekerjaan validasi. Alat enterprise lebih mahal dari kebanyakan hibah yang diizinkan. Kesenjangannya nyata dan memblokir penelitian.
Proses Batch Lima Langkah
Untuk 200.000 catatan pemulangan, pendekatan batch berurutan bekerja dengan baik.
Langkah 1: Ekspor dari EHR. Tarik bidang terstruktur dan tidak terstruktur sebagai file teks atau PDF per kunjungan. Epic, Cerner, dan Meditech semuanya mendukung ini. Mereka mengekspor file CSV atau HL7 dengan bidang catatan klinis yang disertakan.
Langkah 2: Jalankan batch sebanyak 5.000. Batch ukuran ini cepat dan cukup kecil untuk ditinjau di setiap tahap.
Tetapkan jenis entitas untuk Safe Harbor:
- PERSON (nama pasien, anggota keluarga dalam catatan)
- US_SSN
- US_MEDICAL_RECORD_NUMBER
- PHONE_NUMBER
- EMAIL_ADDRESS
- URL
- IP_ADDRESS
- LOCATION (alamat, kode pos, kota — apa pun di bawah tingkat negara bagian)
- DATE (semua tanggal klinis; pasien di atas 89 tahun menjadi "> 89")
- HEALTHCARE_ID (nomor asuransi, nomor penerima manfaat)
- ACCOUNT_NUMBER
Untuk informasi lebih lanjut tentang scrubbing PHI batch untuk catatan klinis, lihat pemrosesan batch catatan klinis dengan alat HIPAA lokal. Panduan itu mencakup format file dan penyesuaian entitas secara mendalam.
Langkah 3: Tangani tanggal sebagai langkah terpisah. Pertahankan tahun. Hapus bulan dan hari. Ganti usia di atas 89 dengan "> 89." Pasangan usia-penyakit langka dapat mengidentifikasi ulang pasien. Hitung bidang durasi terlebih dahulu — lama tinggal, hari hingga rawat inap ulang. Kemudian hapus tanggal sumber.
Langkah 4: Sampel dan tinjau setiap batch. Setelah setiap batch 5.000 catatan, tarik 50 catatan untuk tinjauan manusia. Periksa semua 18 jenis. Cari item konteks seperti nama peneliti dalam catatan atau detail dokter perujuk. Konfirmasi penanganan tanggal sesuai aturan Safe Harbor. Perbaiki kesenjangan apa pun sebelum melanjutkan.
Langkah 5: Dokumentasikan dan sertifikasi. HIPAA mensyaratkan seseorang dengan pengetahuan statistik untuk mengkonfirmasi risiko re-identifikasi sangat kecil. Untuk Safe Harbor, tim yang melakukan penghapusan membuat keputusan itu. Tuliskan konfigurasi entitas dan hasil sampling Anda. Simpan untuk catatan IRB.
Membutuhkan jejak audit untuk setiap penghapusan? Redaksi yang dapat dijelaskan dengan jejak audit HIPAA mencakup pencatatan secara detail.
Perbandingan Biaya
Alat enterprise: $120.000/tahun. Mencakup pengaturan, pelatihan, pemrosesan tak terbatas, dan dukungan kepatuhan.
Pemrosesan batch:
- 200.000 catatan × rata-rata 300 kata = 60.000.000 token
- Dengan €0,0001/token: €6.000 dalam pemrosesan
- Paket Pro (€180/tahun) atau Paket Business (€348/tahun) untuk proyek
- Waktu tinjauan peneliti: 20–40 jam
- Total: kira-kira €7.000–8.000
Penghematan dibandingkan alat enterprise: $111.000–113.000. Penelitian yang terhenti pada $120.000 menjadi layak pada $7.000.
Batasan Utama
Hanya teks. Pendekatan ini menangani PHI berbasis teks. Gambar, audio, dan data biometrik (kategori Safe Harbor 13, 16, dan 17) membutuhkan alat lain.
Validasi diperlukan. Alat otomatis melewatkan beberapa item. Tingkat kesalahan 0,1% pada 200.000 catatan meninggalkan 200 catatan dengan PHI aktif. Itu risiko HIPAA nyata. Jangan lewati validasi.
Periksa dengan kantor privasi Anda. Persetujuan IRB untuk penelitian tidak mencakup metode scrubbing. Sebagian besar pusat meninjau pendekatan penghapusan PHI secara terpisah. Panduan ini menambah tinjauan itu — bukan menggantikannya.
Expert Determination adalah pilihan. HIPAA juga memungkinkan scrubbing melalui "Expert Determination" (45 CFR §164.514(b)(1)). Seorang ahli statistik mensertifikasi risiko re-identifikasi sangat kecil. Jalur ini cocok untuk dataset yang tidak biasa. Ini bekerja dengan baik ketika menghapus semua tanggal akan merusak analisis time-series.
Untuk perbandingan alat PHI otomatis secara berdampingan, lihat perbandingan akurasi deteksi PHI.
Kesimpulan
Penelitian kesehatan yang dapat membantu pasien terhenti di balik biaya penghapusan PHI. Tinjauan manual tidak berskala. Alat enterprise lebih mahal dari kebanyakan hibah yang diizinkan. Dataset tetap terkunci atau tidak di-scrub dengan benar.
Pemrosesan batch berbasis token membuat penelitian skala besar menjadi layak. Pusat akademis dan peneliti independen mendapatkan akurasi yang sama dengan sistem rumah sakit besar. Dengan anggaran hibah standar.