De-Identifikasi HIPAA Safe Harbor dalam Skala: Panduan untuk Peneliti Kesehatan

Sebuah pusat medis akademis perlu membersihkan 200.000 catatan pemulangan. Tujuannya: membangun model prediksi rawat inap ulang. Alat yang ada berharga $120.000 per tahun. Anggaran hibah untuk pekerjaan data: $5.000.

Kesenjangan ini umum terjadi. Penelitian kesehatan membutuhkan dataset besar. Dataset tersebut berisi informasi kesehatan yang dilindungi (PHI). PHI mencakup nama, tanggal, alamat, dan detail pribadi lainnya. Menghapus PHI memungkinkan peneliti menggunakan data secara legal. Namun alat-alatnya dihargai untuk sistem rumah sakit, bukan hibah penelitian.

HIPAA Safe Harbor: 18 Pengidentifikasi

Metode Safe Harbor HIPAA (45 CFR §164.514(b)) mencantumkan 18 jenis PHI. Semua harus dihapus sebelum data kesehatan kehilangan status "dilindungi". Setelah penghapusan, penelitian dapat berlanjut tanpa persetujuan pasien.

Berikut semua 18 jenis:

Nama
Data geografis yang lebih kecil dari negara bagian (kode pos perlu dipotong menjadi 3 digit untuk populasi kecil)
Semua tanggal kecuali tahun — tanggal masuk, keluar, lahir, meninggal, dan tanggal lainnya
Nomor telepon
Nomor faks
Alamat email
Nomor jaminan sosial
Nomor catatan medis
Nomor penerima manfaat rencana kesehatan
Nomor akun
Nomor sertifikat dan lisensi
Pengidentifikasi dan nomor seri kendaraan
Pengidentifikasi dan nomor seri perangkat
URL web
Alamat IP
Pengidentifikasi biometrik (sidik jari, cetakan suara)
Foto wajah penuh dan gambar serupa
Nomor atau kode pengidentifikasi unik lainnya

Lima yang pertama muncul di hampir setiap catatan pemulangan. Semua harus dihapus atau diubah.

Tanggal membutuhkan perhatian khusus. Setiap tanggal pasien harus mempertahankan tahun tetapi menghilangkan hari dan bulan tertentu. "15 Maret 2023" menjadi "2023." Anda dapat menyimpan durasi sebagai bidang — tetapi hanya setelah tanggal sumber dihapus.

Masalah Skala

Dataset kesehatan yang berguna itu besar:

Prediksi rawat inap ulang: 50.000–500.000 kunjungan
Pekerjaan hasil pengobatan: 10.000–100.000 pasien per kondisi
Efikasi obat: 5.000–50.000 catatan
Kesehatan populasi: 100.000+ kunjungan

Tinjauan manual dalam skala ini tidak berhasil. Tinjauan 5 menit per catatan membutuhkan 250–2.500 hari kerja untuk 100.000 catatan. Tingkat kesalahan manusia mencapai 1–5%. Bahkan tingkat kesalahan kecil menciptakan risiko HIPAA. Dua peninjau yang memperlakukan tanggal secara berbeda dapat merusak status Safe Harbor. Itu kesalahan mudah dibuat pada dataset besar.

Scrubbing otomatis adalah satu-satunya pilihan nyata. Ini harus menangkap semua 18 jenis di berbagai format yang ditemukan dalam catatan klinis.

Kesenjangan Harga Alat

Alat enterprise menargetkan sistem rumah sakit:

Datavant: $100.000+/tahun
Veradigm (Allscripts): harga serupa
Clinithink CLiX: hanya hubungi penjualan
Syntegra (data sintetis): harga enterprise

Vendor ini menjual kepada organisasi besar dengan tim hukum dan kepatuhan. Hibah penelitian bukan pasar mereka.

Alat gratis dan open-source ada tetapi membutuhkan keahlian:

MITRE MIST: gratis, tetapi membutuhkan pengaturan berat dan memiliki dukungan bahasa terbatas
Stanford NLP DEID: tingkat penelitian, membutuhkan keterampilan Java dan coding
Alat i2b2 NLP: NLP klinis, pengaturan diperlukan

Sebagian besar peneliti membutuhkan penghapusan PHI yang andal dengan pengaturan sederhana. Alat open-source membutuhkan keterampilan coding dan linguistik untuk dijalankan. Mereka juga membutuhkan pekerjaan validasi. Alat enterprise lebih mahal dari kebanyakan hibah yang diizinkan. Kesenjangannya nyata dan memblokir penelitian.

Proses Batch Lima Langkah

Untuk 200.000 catatan pemulangan, pendekatan batch berurutan bekerja dengan baik.

Langkah 1: Ekspor dari EHR. Tarik bidang terstruktur dan tidak terstruktur sebagai file teks atau PDF per kunjungan. Epic, Cerner, dan Meditech semuanya mendukung ini. Mereka mengekspor file CSV atau HL7 dengan bidang catatan klinis yang disertakan.

Langkah 2: Jalankan batch sebanyak 5.000. Batch ukuran ini cepat dan cukup kecil untuk ditinjau di setiap tahap.

Tetapkan jenis entitas untuk Safe Harbor:

PERSON (nama pasien, anggota keluarga dalam catatan)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (alamat, kode pos, kota — apa pun di bawah tingkat negara bagian)
DATE (semua tanggal klinis; pasien di atas 89 tahun menjadi "> 89")
HEALTHCARE_ID (nomor asuransi, nomor penerima manfaat)
ACCOUNT_NUMBER

Untuk informasi lebih lanjut tentang scrubbing PHI batch untuk catatan klinis, lihat pemrosesan batch catatan klinis dengan alat HIPAA lokal. Panduan itu mencakup format file dan penyesuaian entitas secara mendalam.

Langkah 3: Tangani tanggal sebagai langkah terpisah. Pertahankan tahun. Hapus bulan dan hari. Ganti usia di atas 89 dengan "> 89." Pasangan usia-penyakit langka dapat mengidentifikasi ulang pasien. Hitung bidang durasi terlebih dahulu — lama tinggal, hari hingga rawat inap ulang. Kemudian hapus tanggal sumber.

Langkah 4: Sampel dan tinjau setiap batch. Setelah setiap batch 5.000 catatan, tarik 50 catatan untuk tinjauan manusia. Periksa semua 18 jenis. Cari item konteks seperti nama peneliti dalam catatan atau detail dokter perujuk. Konfirmasi penanganan tanggal sesuai aturan Safe Harbor. Perbaiki kesenjangan apa pun sebelum melanjutkan.

Langkah 5: Dokumentasikan dan sertifikasi. HIPAA mensyaratkan seseorang dengan pengetahuan statistik untuk mengkonfirmasi risiko re-identifikasi sangat kecil. Untuk Safe Harbor, tim yang melakukan penghapusan membuat keputusan itu. Tuliskan konfigurasi entitas dan hasil sampling Anda. Simpan untuk catatan IRB.

Membutuhkan jejak audit untuk setiap penghapusan? Redaksi yang dapat dijelaskan dengan jejak audit HIPAA mencakup pencatatan secara detail.

Perbandingan Biaya

Alat enterprise: $120.000/tahun. Mencakup pengaturan, pelatihan, pemrosesan tak terbatas, dan dukungan kepatuhan.

Pemrosesan batch:

200.000 catatan × rata-rata 300 kata = 60.000.000 token
Dengan €0,0001/token: €6.000 dalam pemrosesan
Paket Pro (€180/tahun) atau Paket Business (€348/tahun) untuk proyek
Waktu tinjauan peneliti: 20–40 jam
Total: kira-kira €7.000–8.000

Penghematan dibandingkan alat enterprise: $111.000–113.000. Penelitian yang terhenti pada $120.000 menjadi layak pada $7.000.

Batasan Utama

Hanya teks. Pendekatan ini menangani PHI berbasis teks. Gambar, audio, dan data biometrik (kategori Safe Harbor 13, 16, dan 17) membutuhkan alat lain.

Validasi diperlukan. Alat otomatis melewatkan beberapa item. Tingkat kesalahan 0,1% pada 200.000 catatan meninggalkan 200 catatan dengan PHI aktif. Itu risiko HIPAA nyata. Jangan lewati validasi.

Periksa dengan kantor privasi Anda. Persetujuan IRB untuk penelitian tidak mencakup metode scrubbing. Sebagian besar pusat meninjau pendekatan penghapusan PHI secara terpisah. Panduan ini menambah tinjauan itu — bukan menggantikannya.

Expert Determination adalah pilihan. HIPAA juga memungkinkan scrubbing melalui "Expert Determination" (45 CFR §164.514(b)(1)). Seorang ahli statistik mensertifikasi risiko re-identifikasi sangat kecil. Jalur ini cocok untuk dataset yang tidak biasa. Ini bekerja dengan baik ketika menghapus semua tanggal akan merusak analisis time-series.

Untuk perbandingan alat PHI otomatis secara berdampingan, lihat perbandingan akurasi deteksi PHI.

Kesimpulan

Penelitian kesehatan yang dapat membantu pasien terhenti di balik biaya penghapusan PHI. Tinjauan manual tidak berskala. Alat enterprise lebih mahal dari kebanyakan hibah yang diizinkan. Dataset tetap terkunci atau tidak di-scrub dengan benar.

Pemrosesan batch berbasis token membuat penelitian skala besar menjadi layak. Pusat akademis dan peneliti independen mendapatkan akurasi yang sama dengan sistem rumah sakit besar. Dengan anggaran hibah standar.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

Mulai Uji Coba Gratis Lihat Fitur

De-Identifikasi HIPAA Safe Harbor dalam Skala untuk Peneliti Kesehatan

De-Identifikasi HIPAA Safe Harbor dalam Skala: Panduan untuk Peneliti Kesehatan

HIPAA Safe Harbor: 18 Pengidentifikasi

Masalah Skala

Kesenjangan Harga Alat

Proses Batch Lima Langkah

Perbandingan Biaya

Batasan Utama

Kesimpulan

Sumber

Artikel Terkait

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

ISO 27001 & HIPAA BAAs for Healthcare

Siap untuk melindungi data Anda?

De-Identifikasi HIPAA Safe Harbor dalam Skala untuk Peneliti Kesehatan

De-Identifikasi HIPAA Safe Harbor dalam Skala: Panduan untuk Peneliti Kesehatan

HIPAA Safe Harbor: 18 Pengidentifikasi

Masalah Skala

Kesenjangan Harga Alat

Proses Batch Lima Langkah

Perbandingan Biaya

Batasan Utama

Kesimpulan

Sumber

Artikel Terkait

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

ISO 27001 & HIPAA BAAs for Healthcare

Siap untuk melindungi data Anda?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow