By · Last updated 2026-05-25

Kembali ke BlogKesehatan

De-Identifikasi HIPAA Safe Harbor dalam Skala untuk Peneliti Kesehatan

HIPAA Safe Harbor mensyaratkan penghapusan 18 kategori pengidentifikasi PHI tertentu. Pusat medis akademis membutuhkan de-identifikasi dalam skala besar tetapi alat yang ada terlalu mahal.

May 25, 20269 menit baca
HIPAA Safe Harborde-identificationhealthcare researchPHI removalacademic medical center

De-Identifikasi HIPAA Safe Harbor dalam Skala: Panduan untuk Peneliti Kesehatan

Sebuah pusat medis akademis perlu membersihkan 200.000 catatan pemulangan. Tujuannya: membangun model prediksi rawat inap ulang. Alat yang ada berharga $120.000 per tahun. Anggaran hibah untuk pekerjaan data: $5.000.

Kesenjangan ini umum terjadi. Penelitian kesehatan membutuhkan dataset besar. Dataset tersebut berisi informasi kesehatan yang dilindungi (PHI). PHI mencakup nama, tanggal, alamat, dan detail pribadi lainnya. Menghapus PHI memungkinkan peneliti menggunakan data secara legal. Namun alat-alatnya dihargai untuk sistem rumah sakit, bukan hibah penelitian.

HIPAA Safe Harbor: 18 Pengidentifikasi

Metode Safe Harbor HIPAA (45 CFR §164.514(b)) mencantumkan 18 jenis PHI. Semua harus dihapus sebelum data kesehatan kehilangan status "dilindungi". Setelah penghapusan, penelitian dapat berlanjut tanpa persetujuan pasien.

Berikut semua 18 jenis:

  1. Nama
  2. Data geografis yang lebih kecil dari negara bagian (kode pos perlu dipotong menjadi 3 digit untuk populasi kecil)
  3. Semua tanggal kecuali tahun — tanggal masuk, keluar, lahir, meninggal, dan tanggal lainnya
  4. Nomor telepon
  5. Nomor faks
  6. Alamat email
  7. Nomor jaminan sosial
  8. Nomor catatan medis
  9. Nomor penerima manfaat rencana kesehatan
  10. Nomor akun
  11. Nomor sertifikat dan lisensi
  12. Pengidentifikasi dan nomor seri kendaraan
  13. Pengidentifikasi dan nomor seri perangkat
  14. URL web
  15. Alamat IP
  16. Pengidentifikasi biometrik (sidik jari, cetakan suara)
  17. Foto wajah penuh dan gambar serupa
  18. Nomor atau kode pengidentifikasi unik lainnya

Lima yang pertama muncul di hampir setiap catatan pemulangan. Semua harus dihapus atau diubah.

Tanggal membutuhkan perhatian khusus. Setiap tanggal pasien harus mempertahankan tahun tetapi menghilangkan hari dan bulan tertentu. "15 Maret 2023" menjadi "2023." Anda dapat menyimpan durasi sebagai bidang — tetapi hanya setelah tanggal sumber dihapus.

Masalah Skala

Dataset kesehatan yang berguna itu besar:

  • Prediksi rawat inap ulang: 50.000–500.000 kunjungan
  • Pekerjaan hasil pengobatan: 10.000–100.000 pasien per kondisi
  • Efikasi obat: 5.000–50.000 catatan
  • Kesehatan populasi: 100.000+ kunjungan

Tinjauan manual dalam skala ini tidak berhasil. Tinjauan 5 menit per catatan membutuhkan 250–2.500 hari kerja untuk 100.000 catatan. Tingkat kesalahan manusia mencapai 1–5%. Bahkan tingkat kesalahan kecil menciptakan risiko HIPAA. Dua peninjau yang memperlakukan tanggal secara berbeda dapat merusak status Safe Harbor. Itu kesalahan mudah dibuat pada dataset besar.

Scrubbing otomatis adalah satu-satunya pilihan nyata. Ini harus menangkap semua 18 jenis di berbagai format yang ditemukan dalam catatan klinis.

Kesenjangan Harga Alat

Alat enterprise menargetkan sistem rumah sakit:

  • Datavant: $100.000+/tahun
  • Veradigm (Allscripts): harga serupa
  • Clinithink CLiX: hanya hubungi penjualan
  • Syntegra (data sintetis): harga enterprise

Vendor ini menjual kepada organisasi besar dengan tim hukum dan kepatuhan. Hibah penelitian bukan pasar mereka.

Alat gratis dan open-source ada tetapi membutuhkan keahlian:

  • MITRE MIST: gratis, tetapi membutuhkan pengaturan berat dan memiliki dukungan bahasa terbatas
  • Stanford NLP DEID: tingkat penelitian, membutuhkan keterampilan Java dan coding
  • Alat i2b2 NLP: NLP klinis, pengaturan diperlukan

Sebagian besar peneliti membutuhkan penghapusan PHI yang andal dengan pengaturan sederhana. Alat open-source membutuhkan keterampilan coding dan linguistik untuk dijalankan. Mereka juga membutuhkan pekerjaan validasi. Alat enterprise lebih mahal dari kebanyakan hibah yang diizinkan. Kesenjangannya nyata dan memblokir penelitian.

Proses Batch Lima Langkah

Untuk 200.000 catatan pemulangan, pendekatan batch berurutan bekerja dengan baik.

Langkah 1: Ekspor dari EHR. Tarik bidang terstruktur dan tidak terstruktur sebagai file teks atau PDF per kunjungan. Epic, Cerner, dan Meditech semuanya mendukung ini. Mereka mengekspor file CSV atau HL7 dengan bidang catatan klinis yang disertakan.

Langkah 2: Jalankan batch sebanyak 5.000. Batch ukuran ini cepat dan cukup kecil untuk ditinjau di setiap tahap.

Tetapkan jenis entitas untuk Safe Harbor:

  • PERSON (nama pasien, anggota keluarga dalam catatan)
  • US_SSN
  • US_MEDICAL_RECORD_NUMBER
  • PHONE_NUMBER
  • EMAIL_ADDRESS
  • URL
  • IP_ADDRESS
  • LOCATION (alamat, kode pos, kota — apa pun di bawah tingkat negara bagian)
  • DATE (semua tanggal klinis; pasien di atas 89 tahun menjadi "> 89")
  • HEALTHCARE_ID (nomor asuransi, nomor penerima manfaat)
  • ACCOUNT_NUMBER

Untuk informasi lebih lanjut tentang scrubbing PHI batch untuk catatan klinis, lihat pemrosesan batch catatan klinis dengan alat HIPAA lokal. Panduan itu mencakup format file dan penyesuaian entitas secara mendalam.

Langkah 3: Tangani tanggal sebagai langkah terpisah. Pertahankan tahun. Hapus bulan dan hari. Ganti usia di atas 89 dengan "> 89." Pasangan usia-penyakit langka dapat mengidentifikasi ulang pasien. Hitung bidang durasi terlebih dahulu — lama tinggal, hari hingga rawat inap ulang. Kemudian hapus tanggal sumber.

Langkah 4: Sampel dan tinjau setiap batch. Setelah setiap batch 5.000 catatan, tarik 50 catatan untuk tinjauan manusia. Periksa semua 18 jenis. Cari item konteks seperti nama peneliti dalam catatan atau detail dokter perujuk. Konfirmasi penanganan tanggal sesuai aturan Safe Harbor. Perbaiki kesenjangan apa pun sebelum melanjutkan.

Langkah 5: Dokumentasikan dan sertifikasi. HIPAA mensyaratkan seseorang dengan pengetahuan statistik untuk mengkonfirmasi risiko re-identifikasi sangat kecil. Untuk Safe Harbor, tim yang melakukan penghapusan membuat keputusan itu. Tuliskan konfigurasi entitas dan hasil sampling Anda. Simpan untuk catatan IRB.

Membutuhkan jejak audit untuk setiap penghapusan? Redaksi yang dapat dijelaskan dengan jejak audit HIPAA mencakup pencatatan secara detail.

Perbandingan Biaya

Alat enterprise: $120.000/tahun. Mencakup pengaturan, pelatihan, pemrosesan tak terbatas, dan dukungan kepatuhan.

Pemrosesan batch:

  • 200.000 catatan × rata-rata 300 kata = 60.000.000 token
  • Dengan €0,0001/token: €6.000 dalam pemrosesan
  • Paket Pro (€180/tahun) atau Paket Business (€348/tahun) untuk proyek
  • Waktu tinjauan peneliti: 20–40 jam
  • Total: kira-kira €7.000–8.000

Penghematan dibandingkan alat enterprise: $111.000–113.000. Penelitian yang terhenti pada $120.000 menjadi layak pada $7.000.

Batasan Utama

Hanya teks. Pendekatan ini menangani PHI berbasis teks. Gambar, audio, dan data biometrik (kategori Safe Harbor 13, 16, dan 17) membutuhkan alat lain.

Validasi diperlukan. Alat otomatis melewatkan beberapa item. Tingkat kesalahan 0,1% pada 200.000 catatan meninggalkan 200 catatan dengan PHI aktif. Itu risiko HIPAA nyata. Jangan lewati validasi.

Periksa dengan kantor privasi Anda. Persetujuan IRB untuk penelitian tidak mencakup metode scrubbing. Sebagian besar pusat meninjau pendekatan penghapusan PHI secara terpisah. Panduan ini menambah tinjauan itu — bukan menggantikannya.

Expert Determination adalah pilihan. HIPAA juga memungkinkan scrubbing melalui "Expert Determination" (45 CFR §164.514(b)(1)). Seorang ahli statistik mensertifikasi risiko re-identifikasi sangat kecil. Jalur ini cocok untuk dataset yang tidak biasa. Ini bekerja dengan baik ketika menghapus semua tanggal akan merusak analisis time-series.

Untuk perbandingan alat PHI otomatis secara berdampingan, lihat perbandingan akurasi deteksi PHI.

Kesimpulan

Penelitian kesehatan yang dapat membantu pasien terhenti di balik biaya penghapusan PHI. Tinjauan manual tidak berskala. Alat enterprise lebih mahal dari kebanyakan hibah yang diizinkan. Dataset tetap terkunci atau tidak di-scrub dengan benar.

Pemrosesan batch berbasis token membuat penelitian skala besar menjadi layak. Pusat akademis dan peneliti independen mendapatkan akurasi yang sama dengan sistem rumah sakit besar. Dengan anggaran hibah standar.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.