Powrót do blogaSłużba zdrowia

De-identyfikacja zgodna z HIPAA Safe Harbor na dużą...

Zgodnie z HIPAA Safe Harbor konieczne jest usunięcie 18 konkretnych kategorii identyfikatorów PHI.

April 20, 20269 min czytania
HIPAA Safe Harborde-identificationhealthcare researchPHI removalacademic medical center

De-identyfikacja zgodna z HIPAA Safe Harbor na dużą skalę: Praktyczny przewodnik dla badaczy w dziedzinie ochrony zdrowia

Projekt badawczy zatwierdzony przez IRB akademickiego ośrodka medycznego wymaga de-identyfikacji 200 000 rekordów wypisów dla modelu ML przewidującego readmisję. Istniejące narzędzie do de-identyfikacji zgodne z HIPAA kosztuje 120 000 USD rocznie. Budżet grantu badawczego przeznaczony na przetwarzanie danych: 5 000 USD.

Ten scenariusz jest powszechny. Badania w dziedzinie ochrony zdrowia generują cenne spostrzeżenia — modele przewidujące readmisję, badania wyników leczenia, analizy skuteczności leków — które wymagają dużych, reprezentatywnych zbiorów danych, aby były statystycznie istotne. Te zbiory danych zawierają chronione informacje zdrowotne (PHI). De-identyfikacja umożliwia prowadzenie badań przy jednoczesnej ochronie prywatności pacjentów. Jednak dostępne narzędzia do de-identyfikacji na dużą skalę są wyceniane dla dużych systemów szpitalnych, a nie dla budżetów badawczych.

HIPAA Safe Harbor: Co musi być usunięte

Metoda de-identyfikacji zgodna z HIPAA Safe Harbor (45 CFR §164.514(b)) określa 18 kategorii PHI, które muszą być usunięte, zanim informacje zdrowotne stracą swój "chroniony" status i mogą być używane do badań bez indywidualnej autoryzacji:

  1. Imiona
  2. Dane geograficzne (wszystkie mniejsze niż stan; kody pocztowe wymagają skrócenia do 3 cyfr dla małych populacji)
  3. Daty (z wyjątkiem roku) — data przyjęcia, data wypisu, data urodzenia, data śmierci, wszystkie inne daty
  4. Numery telefonów
  5. Numery faksów
  6. Adresy e-mail
  7. Numery ubezpieczenia społecznego
  8. Numery rekordów medycznych
  9. Numery beneficjentów planu zdrowotnego
  10. Numery kont
  11. Numery certyfikatów/licencji
  12. Identyfikatory pojazdów i numery seryjne
  13. Identyfikatory urządzeń i numery seryjne
  14. Adresy URL
  15. Adresy IP
  16. Identyfikatory biometryczne (odciski palców, odciski głosu)
  17. Zdjęcia całej twarzy i porównywalne obrazy
  18. Jakikolwiek inny unikalny numer identyfikacyjny, cecha lub kod

Pierwsze 5 identyfikatorów (imiona, dane geograficzne, daty, numery telefonów, numery faksów) występuje w prawie każdym rekordzie wypisu. Muszą być wszystkie usunięte lub zmodyfikowane.

Uwaga dotycząca dat: To jedno z najbardziej operacyjnie złożonych wymagań Safe Harbor. Nie tylko data urodzenia — wszystkie daty związane z opieką nad pacjentem muszą mieć zachowany rok, a konkretna data musi być usunięta lub uogólniona. Rekord wypisu datowany na "15 marca 2023" staje się "2023." Czas przyjęcia może być zachowany jako pole obliczeniowe, jeśli podstawowe daty są usunięte.

Problem skali w badaniach akademickich

Zbiory danych badawczych, które produkują statystycznie istotne wyniki w ochronie zdrowia, zazwyczaj wymagają:

  • Przewidywanie readmisji: 50 000-500 000 spotkań pacjentów
  • Analiza wyników leczenia: 10 000-100 000 pacjentów na stan
  • Badania skuteczności leków: 5 000-50 000 rekordów pacjentów
  • Analiza zdrowia populacji: 100 000+ spotkań

Ręczna de-identyfikacja na tej skali nie jest wykonalna:

  • Nawet 5-minutowa recenzja na rekord wymaga 250-2 500 dni roboczych dla 100 000 rekordów
  • Ręczna recenzja wprowadza wskaźniki błędów ludzkich na poziomie 1-5% — nieakceptowalne dla zbiorów danych badawczych, gdzie nawet mały procent identyfikowalnych rekordów stwarza odpowiedzialność zgodnie z HIPAA
  • Niekonsekwentne stosowanie w całym zbiorze danych (jeden recenzent traktuje daty inaczej niż inny) podważa kwalifikację Safe Harbor

Alternatywa — automatyczna de-identyfikacja — wymaga narzędzi wystarczająco zaawansowanych, aby wykryć wszystkie 18 kategorii identyfikatorów w różnych formatach występujących w dokumentacji klinicznej.

Obecny krajobraz narzędzi i luka cenowa

Narzędzia do de-identyfikacji zgodne z HIPAA dla przedsiębiorstw:

  • Datavant: 100 000 USD+/rok dla dużych organizacji ochrony zdrowia
  • De-identyfikacja Veradigm (Allscripts): podobna cena dla przedsiębiorstw
  • Clinithink CLiX: kontakt z działem sprzedaży w celu uzyskania ceny
  • Syntegra (generowanie danych syntetycznych): ceny dla przedsiębiorstw

Te narzędzia są zaprojektowane dla systemów szpitalnych przetwarzających miliony rekordów rocznie z zespołami ds. zgodności, działami prawnymi i możliwościami zakupowymi dla przedsiębiorstw. Nie są dostępne dla badaczy akademickich z budżetami grantowymi.

Opcje darmowe/otwarte źródło:

  • MITRE Identification Scrubber Toolkit (MIST): Darmowe, ale wymaga znacznego ustawienia technicznego i jest ograniczone w zakresie wsparcia językowego
  • Stanford NLP DEID: Narzędzie badawcze, wymaga wiedzy z zakresu Java/programowania
  • Narzędzia NLP i2b2: Narzędzia kliniczne NLP, wymagają ustawienia technicznego

Luka: Akademickie ośrodki medyczne potrzebują niezawodnej, dokładnej de-identyfikacji z minimalnym ustawieniem technicznym. Narzędzia open-source wymagają wiedzy z zakresu lingwistyki obliczeniowej do skonfigurowania i walidacji. Narzędzia dla przedsiębiorstw wymagają budżetu, którego projekty badawcze nie mają.

Praktyczne podejście: Przetwarzanie wsadowe w sekwencyjnych uruchomieniach

Dla zbioru danych 200 000 rekordów wypisów:

Krok 1: Eksport danych z EHR Eksportuj strukturalne i niestrukturalne pola danych do plików tekstowych lub rekordów PDF na każde spotkanie pacjenta. Większość systemów EHR (Epic, Cerner, Meditech) obsługuje eksport danych strukturalnych w formacie CSV/HL7 z oddzielnymi polami tekstowymi dla notatek klinicznych.

Krok 2: De-identyfikacja wsadowa w sekwencyjnych uruchomieniach Przetwarzaj w partiach po 5 000 rekordów — wystarczająco dużych, aby być efektywnymi, wystarczająco małych, aby umożliwić przegląd jakości na każdym etapie.

Skonfiguruj typy jednostek dla HIPAA Safe Harbor:

  • PERSON (imiona pacjentów, imiona członków rodziny wspomniane w notatkach)
  • US_SSN
  • US_MEDICAL_RECORD_NUMBER
  • PHONE_NUMBER
  • EMAIL_ADDRESS
  • URL
  • IP_ADDRESS
  • LOCATION (jednostki geograficzne mniejsze niż stan — adresy ulic, kody pocztowe, miasta)
  • DATE (wszystkie daty kliniczne — zastosuj uogólnienie wieku: pacjenci powyżej 89 lat stają się "powyżej 89")
  • HEALTHCARE_ID (numery członków ubezpieczenia, numery beneficjentów)
  • ACCOUNT_NUMBER

Krok 3: Obsługa dat (specjalistyczna) Daty wymagają szczególnego traktowania poza usunięciem:

  • Zachowaj rok
  • Usuń miesiąc i dzień
  • Dla obliczeń wieku: jeśli wiek > 89, zastąp dokładny wiek " > 89" aby zapobiec re-identyfikacji przez rzadkie kombinacje wieku i choroby
  • Oblicz pola czasu trwania (czas pobytu, dni do readmisji) na podstawie różnic dat, a następnie usuń oryginalne daty.

Ten krok może wymagać specjalistycznego skryptu do przetwarzania końcowego w celu obliczenia pól pochodnych przed usunięciem dat.

Krok 4: Próbkowanie walidacyjne Po każdej partii 5 000 rekordów, próbkuj 50 rekordów do przeglądu przez człowieka:

  • Zweryfikuj, że wszystkie 18 kategorii identyfikatorów zostało usuniętych
  • Sprawdź kontekstowe identyfikatory (imiona badaczy w notatkach klinicznych, szczegóły dotyczące lekarzy kierujących)
  • Zweryfikuj, że obsługa dat jest zgodna z wymaganiami Safe Harbor

Krok 5: Certyfikacja HIPAA wymaga, aby osoba z odpowiednią wiedzą statystyczną lub naukową określiła, że prawdopodobieństwo re-identyfikacji jest bardzo małe. Dla Safe Harbor, podmiot stosujący usunięcie 18 kategorii certyfikuje zgodność. Udokumentuj swój proces, konfigurację typów jednostek i próbki walidacyjne dla zapisów IRB.

Analiza kosztów: Budżet badawczy vs. Narzędzie dla przedsiębiorstw

Narzędzie do de-identyfikacji zgodne z HIPAA dla przedsiębiorstw: 120 000 USD/rok Zawiera konfigurację, szkolenie, nieograniczone przetwarzanie, wsparcie dokumentacji zgodności.

Podejście do przetwarzania wsadowego:

  • 200 000 rekordów × średnio 300 słów/rekord = 60 000 000 tokenów
  • Przy €0.0001/token: €6 000 kosztów przetwarzania
  • Plan profesjonalny (€180/rok) lub plan biznesowy (€348/rok) na czas trwania projektu
  • Czas badacza na walidację: 20-40 godzin w stawkach postdoc
  • Razem: około €7 000-8 000

Roczne oszczędności w porównaniu do narzędzia dla przedsiębiorstw: 111 000-113 000 USD.

Badania, które były zbyt kosztowne przy 120 000 USD, stają się wykonalne przy 7 000 USD — z budżetem grantu pokrywającym zarówno przetwarzanie danych, jak i czas badacza.

Ważne zastrzeżenia

To podejście jest odpowiednie dla de-identyfikacji tekstowych PHI. Obrazy, nagrania audio i dane biometryczne (kategorie Safe Harbor 13, 16, 17) wymagają specjalistycznych narzędzi wykraczających poza przetwarzanie tekstu.

Walidacja jest wymagana. Narzędzia automatyczne nie są w 100% dokładne. Wskaźnik błędów na poziomie 0,1% przy 200 000 rekordów oznacza 200 rekordów z pozostałymi PHI — wciąż istotne ryzyko zgodności z HIPAA. Krok próbkowania walidacyjnego nie jest opcjonalny.

Biuro prywatności Twojej instytucji powinno to przeanalizować. Zatwierdzenie IRB dla badań nie upoważnia automatycznie do podejścia do de-identyfikacji. Większość akademickich ośrodków medycznych ma biuro prywatności lub IRB, które przegląda metody de-identyfikacji. Te wytyczne uzupełniają, a nie zastępują, przegląd instytucjonalny.

Rozważ Ekspert Determination jako alternatywę. HIPAA również pozwala na de-identyfikację poprzez "Ekspert Determination" (45 CFR §164.514(b)(1)) — statystyczny ekspert certyfikujący, że ryzyko re-identyfikacji jest bardzo małe. To podejście może być bardziej odpowiednie dla nietypowych zbiorów danych, gdzie kategoryczne usunięcie Safe Harbor stwarza problemy metodologiczne (usunięcie wszystkich dat uniemożliwia analizę temporalną).

Wnioski

Badania w dziedzinie ochrony zdrowia, które mogłyby poprawić wyniki pacjentów, są obecnie zablokowane przez koszty de-identyfikacji zgodnej z HIPAA. Kiedy jedyną przystępną opcją dla badaczy akademickich jest ręczna de-identyfikacja (niewykonalna na dużą skalę) lub drogie narzędzia dla przedsiębiorstw (przekraczające budżety grantowe), zbiory danych badawczych pozostają zablokowane lub niewystarczająco de-identyfikowane.

De-identyfikacja wsadowa z wykorzystaniem cen opartej na tokenach sprawia, że zbiór danych badawczych liczący 200 000 rekordów staje się ekonomicznie wykonalny. Ta sama dokładność statystyczna dostępna dla dużych systemów szpitalnych staje się dostępna dla akademickich ośrodków medycznych, niezależnych badaczy i mniejszych organizacji ochrony zdrowia zaangażowanych w badania nad poprawą jakości.

Źródła:

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.