Bloga DönSağlık Hizmetleri

HIPAA Güvenli Limanında Ölçekli De-Identifikasyon...

HIPAA Güvenli Liman, 18 belirli PHI tanımlayıcı kategorisinin kaldırılmasını gerektirir.

April 20, 20269 dk okuma
HIPAA Safe Harborde-identificationhealthcare researchPHI removalacademic medical center

HIPAA Güvenli Limanında Ölçekli De-Identifikasyon: Sağlık Araştırmacıları için Pratik Bir Rehber

Bir akademik tıp merkezinin IRB onaylı araştırma projesi, bir yeniden hastaneye kabul tahmin ML modeli için 200.000 taburcu kayıtlarının de-identifikasyonunu gerektirir. Mevcut HIPAA de-identifikasyon aracı yılda 120.000 $'dır. Veri işleme için ayrılan araştırma hibe bütçesi: 5.000 $.

Bu senaryo yaygındır. Sağlık araştırmaları, istatistiksel olarak anlamlı olması için büyük, temsilci veri setlerine ihtiyaç duyan değerli içgörüler üretir — yeniden hastaneye kabul tahmin modelleri, tedavi sonuçları çalışmaları, ilaç etkinliği analizleri. Bu veri setleri korunan sağlık bilgilerini (PHI) içerir. De-Identifikasyon, hasta gizliliğini korurken araştırmayı mümkün kılar. Ancak ölçekli de-identifikasyon için mevcut araçlar, araştırma bütçeleri için değil, büyük hastane sistemleri için fiyatlandırılmıştır.

HIPAA Güvenli Liman: Kaldırılması Gerekenler

HIPAA'nın Güvenli Liman de-identifikasyon yöntemi (45 CFR §164.514(b)), sağlık bilgilerinin "korunan" statüsünü kaybetmeden ve bireysel onay olmadan araştırma için kullanılabilmesi için kaldırılması gereken 18 PHI kategorisini belirtir:

  1. İsimler
  2. Coğrafi veriler (eyaletlerden daha küçük olanlar; küçük nüfuslar için posta kodları 3 haneli olarak kısaltılmalıdır)
  3. Tarihler (yıl hariç) — kabul tarihi, taburcu tarihi, doğum tarihi, ölüm tarihi, diğer tüm tarihler
  4. Telefon numaraları
  5. Faks numaraları
  6. E-posta adresleri
  7. Sosyal güvenlik numaraları
  8. Tıbbi kayıt numaraları
  9. Sağlık planı yararlanıcı numaraları
  10. Hesap numaraları
  11. Sertifika/lisans numaraları
  12. Araç tanımlayıcıları ve seri numaraları
  13. Cihaz tanımlayıcıları ve seri numaraları
  14. Web URL'leri
  15. IP adresleri
  16. Biyometrik tanımlayıcılar (parmak izleri, ses izleri)
  17. Tam yüz fotoğrafları ve karşılaştırılabilir görüntüler
  18. Herhangi bir diğer benzersiz tanımlayıcı numara, özellik veya kod

İlk 5 tanımlayıcı (isimler, coğrafi veriler, tarihler, telefon numaraları, faks numaraları) neredeyse her taburcu kaydında görünmektedir. Hepsi kaldırılmalı veya değiştirilmelidir.

Tarihler hakkında not: Bu, en operasyonel olarak karmaşık Güvenli Liman gereksinimlerinden biridir. Sadece doğum tarihi değil — hastanın bakımıyla ilişkili tüm tarihler yılın korunması ve belirli tarihin kaldırılması veya genelleştirilmesi gerekmektedir. "15 Mart 2023" tarihli bir taburcu kaydı "2023" olur. Kabul süresi, temel tarihler kaldırıldığında hesaplanan bir alan olarak korunabilir.

Akademik Araştırmadaki Ölçek Sorunu

Sağlıkta istatistiksel olarak anlamlı bulgular üreten araştırma veri setleri genellikle şunları gerektirir:

  • Yeniden hastaneye kabul tahmini: 50.000-500.000 hasta karşılaşması
  • Tedavi sonuç analizi: her durum için 10.000-100.000 hasta
  • İlaç etkinliği çalışmaları: 5.000-50.000 hasta kaydı
  • Popülasyon sağlığı analizi: 100.000+ karşılaşma

Bu ölçeklerde manuel de-identifikasyon uygulanabilir değildir:

  • Her kayıt için 5 dakikalık bir inceleme bile 100.000 kayıt için 250-2.500 çalışma günü gerektirir
  • Manuel inceleme, %1-5 oranında insan hata oranları getirir — tanımlanabilir kayıtların küçük bir yüzdesinin bile HIPAA sorumluluğu oluşturduğu araştırma veri setleri için kabul edilemez
  • Bir veri seti boyunca tutarsız uygulama (bir inceleyici tarihlere diğerinden farklı yaklaşır) Güvenli Liman niteliklerini zayıflatır

Alternatif — otomatik de-identifikasyon — klinik belgelerde bulunan çeşitli formatlarda 18 tanımlayıcı kategorisini tespit edebilecek kadar sofistike araçlar gerektirir.

Mevcut Araç Manzarası ve Fiyat Farkı

Kurumsal HIPAA de-identifikasyon araçları:

  • Datavant: büyük sağlık kuruluşları için yılda 100.000 $+
  • Veradigm (Allscripts) de-identifikasyonu: benzer kurumsal fiyatlandırma
  • Clinithink CLiX: satış fiyatı için iletişime geçin
  • Syntegra (sentetik veri üretimi): kurumsal fiyatlandırma

Bu araçlar, yıllık milyonlarca kaydı işleyen hastane sistemleri için uyum ekipleri, hukuk departmanları ve kurumsal satın alma yetenekleri ile tasarlanmıştır. Araştırma bütçeleri olan akademik araştırmacılara erişilebilir değildir.

Ücretsiz/açık kaynak seçenekleri:

  • MITRE Tanımlayıcı Temizleme Aracı (MIST): Ücretsiz, ancak önemli teknik kurulum gerektirir ve dil desteği sınırlıdır
  • Stanford NLP DEID: Araştırma düzeyinde, Java/programlama uzmanlığı gerektirir
  • i2b2 NLP araçları: Klinik NLP araçları, teknik kurulum gerektirir

Fark: Akademik tıp merkezleri, minimum teknik kurulum ile güvenilir, doğru de-identifikasyona ihtiyaç duyar. Açık kaynak araçları, yapılandırmak ve doğrulamak için hesaplamalı dilbilim uzmanlığı gerektirir. Kurumsal araçlar, araştırma projelerinin sahip olmadığı bütçeleri gerektirir.

Pratik Yaklaşım: Ardışık Çalışmalarda Parti İşleme

200.000 taburcu kaydı için bir veri seti:

Adım 1: EHR'den veri dışa aktarma Yapılandırılmış ve yapılandırılmamış veri alanlarını her hasta karşılaşması için metin dosyalarına veya PDF kayıtlarına dışa aktarın. Çoğu EHR sistemi (Epic, Cerner, Meditech), klinik notlar için ayrı metin alanları ile CSV/HL7 formatında yapılandırılmış veri dışa aktarımlarını destekler.

Adım 2: Ardışık çalışmalarda parti de-identifikasyonu 5.000 kayıtlık partiler halinde işleyin — verimli olacak kadar büyük, her aşamada kalite incelemesine izin verecek kadar küçük.

HIPAA Güvenli Liman için varlık türlerini yapılandırın:

  • PERSON (hasta isimleri, notlarda bahsedilen aile üyelerinin isimleri)
  • US_SSN
  • US_MEDICAL_RECORD_NUMBER
  • PHONE_NUMBER
  • EMAIL_ADDRESS
  • URL
  • IP_ADDRESS
  • LOCATION (eyaletlerden daha küçük coğrafi varlıklar — sokak adresleri, posta kodları, şehirler)
  • DATE (tüm klinik tarihler — yaş genelleştirmesi uygulayın: 89 yaş üzerindeki hastalar "89 yaş üstü" olur)
  • HEALTHCARE_ID (sigorta üyesi numaraları, yararlanıcı numaraları)
  • ACCOUNT_NUMBER

Adım 3: Tarih yönetimi (özel) Tarihler, kaldırmanın ötesinde özel bir yönetim gerektirir:

  • Yılı koruyun
  • Ay ve günü kaldırın
  • Yaş hesaplaması için: yaş > 89 ise, nadir yaş-hastalık kombinasyonları yoluyla yeniden tanımlanmayı önlemek için kesin yaşı "> 89" ile değiştirin
  • Tarih farklarından süre alanlarını (hastanede kalış süresi, yeniden kabul için günler) hesaplayın, ardından orijinal tarihleri kaldırın.

Bu adım, tarihleri kaldırmadan önce türetilmiş alanları hesaplamak için özel bir sonrası işleme betiği gerektirebilir.

Adım 4: Doğrulama örnekleme Her 5.000 kayıt partisi sonrası, insan incelemesi için 50 kayıt örnekleyin:

  • Tüm 18 tanımlayıcı kategorinin kaldırıldığını doğrulayın
  • Bağlama özgü tanımlayıcıları kontrol edin (klinik notlarda araştırmacı isimleri, yönlendiren doktor detayları)
  • Tarih yönetiminin Güvenli Liman gereksinimleriyle tutarlı olduğunu doğrulayın

Adım 5: Sertifikasyon HIPAA, uygun istatistiksel veya bilimsel bilgiye sahip bir kişinin yeniden tanımlanma olasılığının çok düşük olduğunu belirlemesini gerektirir. Güvenli Liman için, 18 kategorinin kaldırılmasını uygulayan varlık uyumu sertifikalandırır. Sürecinizi, varlık türü yapılandırmanızı ve IRB kayıtları için doğrulama örneklemenizi belgeleyin.

Maliyet Analizi: Araştırma Bütçesi vs. Kurumsal Araç

Kurumsal HIPAA de-identifikasyon aracı: 120.000 $/yıl Kurulum, eğitim, sınırsız işleme, uyum belgeleri desteğini içerir.

Parti işleme yaklaşımı:

  • 200.000 kayıt × ortalama 300 kelime/kayıt = 60.000.000 token
  • €0.0001/token'da: €6.000 işleme maliyeti
  • Proje süresi için Profesyonel plan (€180/yıl) veya İş planı (€348/yıl)
  • Doğrulama için araştırmacı süresi: 20-40 saat, doktora sonrası oranlarda
  • Toplam: yaklaşık €7.000-8.000

Kurumsal araçla karşılaştırıldığında yıllık tasarruf: 111.000-113.000 $.

120.000 $'lık maliyet, 7.000 $'a uygulanabilir hale gelir — hibe bütçesi hem veri işleme hem de araştırmacı zamanını karşılar.

Önemli Uyarılar

Bu yaklaşım, metin tabanlı PHI de-identifikasyonu için uygundur. Görüntüler, ses kayıtları ve biyometrik veriler (Güvenli Liman kategorileri 13, 16, 17) metin işleme ötesinde özel araçlar gerektirir.

Doğrulama gereklidir. Otomatik araçlar %100 doğru değildir. 200.000 kayıtta %0.1'lik bir hata oranı, 200 kayıtta kalıntı PHI anlamına gelir — hala önemli bir HIPAA riski. Doğrulama örnekleme adımı isteğe bağlı değildir.

Kuruluşunuzun gizlilik ofisi incelemelidir. Araştırma için IRB onayı, de-identifikasyon yaklaşımını otomatik olarak yetkilendirmez. Çoğu akademik tıp merkezi, de-identifikasyon yöntemlerini gözden geçiren bir gizlilik ofisine veya IRB'ye sahiptir. Bu kılavuz, kurumsal incelemeyi tamamlar, yerine geçmez.

Alternatif olarak Uzman Belirlemesini düşünün. HIPAA, "Uzman Belirlemesi" (45 CFR §164.514(b)(1)) yoluyla de-identifikasyonu da sağlar — yeniden tanımlanma riskinin çok düşük olduğunu sertifikalandıran bir istatistik uzmanı. Bu yaklaşım, Güvenli Liman'ın kategorik kaldırılmasının metodolojik sorunlar yarattığı alışılmadık veri setleri için daha uygun olabilir (tüm tarihler kaldırıldığında zamansal analiz imkansız hale gelir).

Sonuç

Hasta sonuçlarını iyileştirebilecek sağlık araştırmaları, şu anda HIPAA de-identifikasyon maliyetleri nedeniyle tıkanmıştır. Akademik araştırmacılar için tek uygun fiyatlı seçenek, ya manuel de-identifikasyon (ölçekli olarak uygulanamaz) ya da pahalı kurumsal araçlardır (hibe bütçelerinin ötesinde), bu nedenle araştırma veri setleri kilitli kalmakta veya yetersiz de-identified olmaktadır.

Token tabanlı fiyatlandırma kullanarak parti de-identifikasyonu, 200.000 kayıtlı araştırma veri setini ekonomik olarak uygulanabilir hale getirir. Büyük hastane sistemlerine sunulan aynı istatistiksel doğruluk, akademik tıp merkezlerine, bağımsız araştırmacılara ve kalite iyileştirme araştırmalarına katılan daha küçük sağlık kuruluşlarına erişilebilir hale gelir.

Kaynaklar:

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.