Penyahtandaan HIPAA Safe Harbor pada Skala: Panduan untuk Penyelidik Penjagaan Kesihatan

Sebuah pusat perubatan akademik perlu menyingkirkan PHI daripada 200,000 rekod discaj. Matlamatnya: membina model ramalan kemasukan semula. Alat sedia ada menelan kos $120,000 setahun. Bajet geran untuk kerja data: $5,000.

Jurang ini adalah biasa. Penyelidikan penjagaan kesihatan memerlukan set data yang besar. Set data tersebut mengandungi maklumat kesihatan yang dilindungi (PHI). PHI merangkumi nama, tarikh, alamat, dan butiran peribadi lain. Membuang PHI membolehkan penyelidik menggunakan data secara sah. Tetapi alat ditetapkan harga untuk sistem hospital, bukan geran penyelidikan.

HIPAA Safe Harbor: 18 Pengecam

Kaedah Safe Harbor HIPAA (45 CFR §164.514(b)) menyenaraikan 18 jenis PHI. Semua mesti dibuang sebelum data kesihatan kehilangan status "dilindungi"-nya. Selepas penyingkiran, penyelidikan boleh diteruskan tanpa persetujuan pesakit.

Berikut adalah kesemua 18 jenis:

Nama
Data geografi lebih kecil daripada negeri (kod pos memerlukan pemotongan kepada 3 digit untuk populasi kecil)
Semua tarikh kecuali tahun — kemasukan, discaj, lahir, kematian, dan tarikh lain
Nombor telefon
Nombor faks
Alamat e-mel
Nombor keselamatan sosial
Nombor rekod perubatan
Nombor benefisiari pelan kesihatan
Nombor akaun
Nombor sijil dan lesen
Pengecam kenderaan dan nombor siri
Pengecam peranti dan nombor siri
URL web
Alamat IP
Pengecam biometrik (cap jari, cap suara)
Foto muka penuh dan imej yang serupa
Sebarang nombor atau kod pengenalan unik yang lain

Lima yang pertama muncul dalam hampir setiap rekod discaj. Semua mesti dibuang atau diubah.

Tarikh memerlukan perhatian khusus. Setiap tarikh pesakit mesti mengekalkan tahun tetapi kehilangan hari dan bulan tertentu. "15 Mac 2023" menjadi "2023." Anda boleh mengekalkan tempoh sebagai medan — tetapi hanya selepas tarikh sumber dibuang.

Masalah Skala

Set data penjagaan kesihatan yang berguna adalah besar:

Ramalan kemasukan semula: 50,000–500,000 pertemuan
Kerja hasil rawatan: 10,000–100,000 pesakit setiap keadaan
Keberkesanan ubat: 5,000–50,000 rekod
Kesihatan penduduk: 100,000+ pertemuan

Semakan manual pada skala ini tidak berfungsi. Semakan 5 minit setiap rekod memerlukan 250–2,500 hari kerja untuk 100,000 rekod. Kadar ralat manusia adalah 1–5%. Walaupun kadar miss yang kecil mewujudkan risiko HIPAA. Dua penyemak yang melayan tarikh secara berbeza boleh memecahkan status Safe Harbor. Itu adalah kesilapan yang mudah dibuat pada set data yang besar.

Pembersihan automatik adalah satu-satunya pilihan sebenar. Ia mesti menangkap kesemua 18 jenis merentas format berbeza yang terdapat dalam nota klinikal.

Jurang Harga Alat

Alat enterprise menyasarkan sistem hospital:

Datavant: $100,000+/tahun
Veradigm (Allscripts): harga yang serupa
Clinithink CLiX: hubungi jualan sahaja
Syntegra (data sintetik): harga enterprise

Vendor ini menjual kepada organisasi besar dengan pasukan undang-undang dan kepatuhan. Geran penyelidikan bukan pasaran mereka.

Alat percuma dan sumber terbuka wujud tetapi memerlukan kepakaran:

MITRE MIST: percuma, tetapi memerlukan persediaan yang berat dan mempunyai sokongan bahasa yang terhad
Stanford NLP DEID: gred penyelidikan, memerlukan kemahiran Java dan pengekodan
Alat NLP i2b2: NLP klinikal, persediaan diperlukan

Kebanyakan penyelidik memerlukan penyingkiran PHI yang boleh dipercayai dengan persediaan yang mudah. Alat sumber terbuka memerlukan kemahiran pengekodan dan linguistik untuk dijalankan. Mereka juga memerlukan kerja pengesahan. Alat enterprise menelan kos lebih daripada kebanyakan geran yang membenarkan. Jurangnya nyata dan ia menyekat penyelidikan.

Proses Kelompok Lima Langkah

Untuk 200,000 rekod discaj, pendekatan kelompok berjujukan berfungsi dengan baik.

Langkah 1: Eksport daripada EHR. Tarik medan berstruktur dan tidak berstruktur sebagai fail teks atau PDF setiap pertemuan. Epic, Cerner, dan Meditech semuanya menyokong ini. Mereka mengeksport fail CSV atau HL7 dengan medan nota klinikal disertakan.

Langkah 2: Jalankan kelompok 5,000. Kelompok saiz ini adalah pantas dan cukup kecil untuk semakan pada setiap peringkat.

Tetapkan jenis entiti untuk Safe Harbor:

PERSON (nama pesakit, ahli keluarga dalam nota)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (alamat, kod pos, bandar — apa sahaja di bawah peringkat negeri)
DATE (semua tarikh klinikal; pesakit yang berumur lebih 89 menjadi "> 89")
HEALTHCARE_ID (nombor insurans, nombor benefisiari)
ACCOUNT_NUMBER

Untuk lebih lanjut tentang pembersihan PHI kelompok untuk nota klinikal, lihat pemprosesan kelompok nota klinikal dengan alat HIPAA tempatan. Panduan itu merangkumi format fail dan penalaan entiti secara mendalam.

Langkah 3: Kendalikan tarikh sebagai langkah berasingan. Kekalkan tahun. Buang bulan dan hari. Gantikan sebarang umur melebihi 89 dengan "> 89." Pasangan umur-penyakit yang jarang boleh mengenal semula pesakit. Kira medan tempoh dahulu — tempoh tinggal, hari hingga kemasukan semula. Kemudian padam tarikh sumber.

Langkah 4: Sampel dan semak setiap kelompok. Selepas setiap kelompok 5,000 rekod, tarik 50 rekod untuk semakan manusia. Semak kesemua 18 jenis. Cari item konteks seperti nama penyelidik dalam nota atau butiran doktor perujuk. Sahkan pengendalian tarikh sepadan dengan peraturan Safe Harbor. Betulkan sebarang jurang sebelum meneruskan.

Langkah 5: Dokumen dan sahkan. HIPAA memerlukan seseorang dengan pengetahuan statistik untuk mengesahkan risiko pengenalan semula adalah sangat kecil. Untuk Safe Harbor, pasukan yang melakukan penyingkiran membuat penilaian itu. Tulis konfigurasi entiti dan keputusan pensampelan anda. Simpan untuk rekod IRB.

Perlukan jejak audit untuk setiap penyingkiran? Suntingan yang boleh dijelaskan dengan jejak audit HIPAA merangkumi pengelogan secara terperinci.

Perbandingan Kos

Alat enterprise: $120,000/tahun. Merangkumi persediaan, latihan, pemprosesan tanpa had, dan sokongan kepatuhan.

Pemprosesan kelompok:

200,000 rekod × purata 300 perkataan = 60,000,000 token
Pada €0.0001/token: €6,000 dalam pemprosesan
Pelan Pro (€180/tahun) atau pelan Business (€348/tahun) untuk projek
Masa semakan penyelidik: 20–40 jam
Jumlah: lebih kurang €7,000–8,000

Penjimatan berbanding alat enterprise: $111,000–113,000. Penyelidikan yang terhenti pada $120,000 menjadi boleh dilaksanakan pada $7,000.

Had Utama

Teks sahaja. Pendekatan ini mengendalikan PHI berasaskan teks. Imej, audio, dan data biometrik (kategori Safe Harbor 13, 16, dan 17) memerlukan alat lain.

Pengesahan diperlukan. Alat automatik melepaskan beberapa item. Kadar miss 0.1% pada 200,000 rekod meninggalkan 200 rekod dengan PHI hidup. Itu adalah risiko HIPAA yang sebenar. Jangan langkau pengesahan.

Semak dengan pejabat privasi anda. Kelulusan IRB untuk kajian tidak merangkumi kaedah pembersihan. Kebanyakan pusat menyemak pendekatan penyingkiran PHI secara berasingan. Panduan ini menambah kepada semakan itu — ia tidak menggantikannya.

Penentuan Pakar adalah pilihan. HIPAA juga membenarkan pembersihan melalui "Penentuan Pakar" (45 CFR §164.514(b)(1)). Pakar statistik mengesahkan risiko pengenalan semula adalah sangat kecil. Laluan ini sesuai untuk set data yang luar biasa. Ia berfungsi dengan baik apabila membuang semua tarikh akan memecahkan analisis siri masa.

Untuk perbandingan alat PHI automatik secara bersebelahan, lihat perbandingan ketepatan pengesanan PHI.

Kesimpulan

Penyelidikan penjagaan kesihatan yang boleh membantu pesakit tersekat di sebalik kos penyingkiran PHI. Semakan manual tidak berskala. Alat enterprise menelan kos lebih daripada kebanyakan geran yang membenarkan. Set data kekal terkunci atau tidak disihir dengan betul.

Pemprosesan kelompok berasaskan token menjadikan penyelidikan skala besar boleh dilaksanakan. Pusat akademik dan penyelidik bebas mendapat ketepatan yang sama seperti sistem hospital yang besar. Dengan bajet geran standard.

Sumber

Artikel Berkaitan

Penjagaan Kesihatan

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

Mulakan Percubaan Percuma Lihat Ciri-ciri

Penyahtandaan HIPAA Safe Harbor pada Skala