De-identyfikacja HIPAA Safe Harbor w skali: przewodnik dla badaczy ochrony zdrowia

Akademickie centrum medyczne musi oczyścić 200 000 kart wypisów. Cel: zbudowanie modelu przewidywania readmisji. Istniejące narzędzie kosztuje 120 000 USD rocznie. Budżet grantu na prace z danymi: 5 000 USD.

Ta przepaść jest powszechna. Badania w ochronie zdrowia wymagają dużych zbiorów danych. Te zbiory danych zawierają chronione dane zdrowotne (PHI). PHI obejmuje imiona i nazwiska, daty, adresy i inne dane osobowe. Usunięcie PHI pozwala badaczom legalnie korzystać z danych. Ale narzędzia są wycenione dla systemów szpitalnych, nie dla grantów badawczych.

HIPAA Safe Harbor: 18 identyfikatorów

Metoda HIPAA Safe Harbor (45 CFR §164.514(b)) wymienia 18 typów PHI. Wszystkie muszą zostać usunięte, zanim dane zdrowotne utracą status „chronionych“. Po ich usunięciu badania mogą być prowadzone bez zgody pacjenta.

Oto wszystkie 18 typów:

Imiona i nazwiska
Dane geograficzne mniejsze niż stan (kody pocztowe wymagają skrócenia do 3 cyfr dla małych populacji)
Wszystkie daty z wyjątkiem roku — przyjęcia, wypisania, urodzenia, śmierci i inne
Numery telefonów
Numery faksów
Adresy e-mail
Numery ubezpieczenia społecznego
Numery kart medycznych
Numery beneficjentów planów zdrowotnych
Numery kont
Numery certyfikatów i licencji
Identyfikatory i numery seryjne pojazdów
Identyfikatory i numery seryjne urządzeń
Adresy URL stron internetowych
Adresy IP
Identyfikatory biometryczne (odciski palców, wzorce głosu)
Zdjęcia twarzy i podobne obrazy
Wszelkie inne unikalne numery lub kody identyfikacyjne

Pierwsze pięć pojawia się w prawie każdej karcie wypisu. Wszystkie muszą zostać usunięte lub zmienione.

Daty wymagają szczególnej uwagi. Każda data pacjenta musi zachować rok, ale stracić konkretny dzień i miesiąc. „15 marca 2023“ staje się „2023“. Możesz zachować czas trwania jako pole — ale dopiero po usunięciu dat źródłowych.

Problem skali

Użyteczne zbiory danych w ochronie zdrowia są duże:

Przewidywanie readmisji: 50 000–500 000 hospitalizacji
Badania wyników leczenia: 10 000–100 000 pacjentów na schorzenie
Skuteczność leków: 5 000–50 000 rekordów
Zdrowie populacyjne: ponad 100 000 hospitalizacji

Ręczna weryfikacja w tej skali nie wchodzi w grę. Przegląd 5-minutowy na rekord zajmuje 250–2 500 dni roboczych dla 100 000 rekordów. Wskaźnik błędów ludzkich wynosi 1–5%. Nawet mały wskaźnik przeoczeń stwarza ryzyko HIPAA. Dwóch recenzentów traktujących daty różnie może złamać status Safe Harbor. To łatwy błąd do popełnienia na dużym zbiorze danych.

Automatyczne czyszczenie jest jedyną realną opcją. Musi wykrywać wszystkie 18 typów w różnorodnych formatach spotykanych w notatkach klinicznych.

Luka cenowa narzędzi

Narzędzia enterprise celują w systemy szpitalne:

Datavant: 100 000+ USD/rok
Veradigm (Allscripts): podobne ceny
Clinithink CLiX: wyłącznie na zapytanie
Syntegra (dane syntetyczne): ceny enterprise

Ci dostawcy sprzedają dużym organizacjom z zespołami prawnymi i ds. compliance. Granty badawcze nie są ich rynkiem.

Istnieją darmowe narzędzia open-source, ale wymagają wiedzy specjalistycznej:

MITRE MIST: darmowy, ale wymaga rozbudowanej konfiguracji i ma ograniczone wsparcie językowe
Stanford NLP DEID: na poziomie badań, wymaga Javy i umiejętności programistycznych
Narzędzia i2b2 NLP: kliniczne NLP, wymagana konfiguracja

Większość badaczy potrzebuje niezawodnego usuwania PHI z prostą konfiguracją. Narzędzia open-source wymagają umiejętności programistycznych i językowych. Wymagają też pracy walidacyjnej. Narzędzia enterprise kosztują więcej niż pozwala większość grantów. Przepaść jest realna i blokuje badania.

Pięcioetapowy proces wsadowy

Dla 200 000 kart wypisów dobrze sprawdza się sekwencyjne podejście wsadowe.

Krok 1: Eksport z EHR. Wyciągnij pola ustrukturyzowane i nieustrukturyzowane jako pliki tekstowe lub PDF na hospitalizację. Epic, Cerner i Meditech obsługują to. Eksportują pliki CSV lub HL7 z dołączonymi polami notatek klinicznych.

Krok 2: Uruchamiaj partie po 5 000. Partie tej wielkości są szybkie i wystarczająco małe do przeglądu na każdym etapie.

Ustaw typy encji dla Safe Harbor:

PERSON (imiona i nazwiska pacjentów, członków rodziny w notatkach)
US_SSN
US_MEDICAL_RECORD_NUMBER
PHONE_NUMBER
EMAIL_ADDRESS
URL
IP_ADDRESS
LOCATION (adresy, kody pocztowe, miasta — wszystko poniżej poziomu stanu)
DATE (wszystkie daty kliniczne; pacjenci powyżej 89 lat stają się „> 89“)
HEALTHCARE_ID (numery ubezpieczenia, numery beneficjentów)
ACCOUNT_NUMBER

Więcej na temat wsadowego czyszczenia PHI z notatek klinicznych — zob. przetwarzanie wsadowe notatek klinicznych z lokalnymi narzędziami HIPAA. Ten przewodnik szczegółowo omawia formaty plików i dostrajanie encji.

Krok 3: Obsłuż daty osobno. Zachowaj rok. Usuń miesiąc i dzień. Zastąp wiek powyżej 89 lat przez „> 89“. Rzadkie pary wiek-choroba mogą re-identyfikować pacjentów. Najpierw oblicz pola czasu trwania — czas hospitalizacji, dni do readmisji. Następnie usuń daty źródłowe.

Krok 4: Próbkuj i przeglądaj każdą partię. Po każdej partii 5 000 rekordów wylosuj 50 rekordów do przeglądu ludzkiego. Sprawdź wszystkie 18 typów. Szukaj elementów kontekstowych, takich jak nazwiska badaczy w notatkach lub dane kierującego lekarza. Potwierdź, że obsługa dat jest zgodna z zasadami Safe Harbor. Napraw braki przed kontynuowaniem.

Krok 5: Dokumentuj i certyfikuj. HIPAA wymaga, by osoba z wiedzą statystyczną potwierdziła, że ryzyko re-identyfikacji jest bardzo małe. Dla Safe Harbor robi to zespół przeprowadzający usuwanie. Opisz konfigurację encji i wyniki próbkowania. Zachowaj je w aktach IRB.

Potrzebujesz śladu audytowego dla każdego usunięcia? Wyjaśnialna redakcja ze śladem audytowym HIPAA szczegółowo omawia rejestrowanie.

Porównanie kosztów

Narzędzie enterprise: 120 000 USD/rok. Obejmuje konfigurację, szkolenie, nieograniczone przetwarzanie i wsparcie compliance.

Przetwarzanie wsadowe:

200 000 rekordów × 300 słów średnio = 60 000 000 tokenów
Przy 0,0001 €/token: 6 000 € za przetwarzanie
Plan Pro (180 €/rok) lub Business (348 €/rok) dla projektu
Czas przeglądu badacza: 20–40 godzin
Łącznie: około 7 000–8 000 €

Oszczędności względem narzędzia enterprise: 111 000–113 000 USD. Badania zablokowane przy 120 000 USD stają się wykonalne przy 7 000 USD.

Kluczowe ograniczenia

Wyłącznie tekst. To podejście obsługuje PHI oparte na tekście. Obrazy, nagrania audio i dane biometryczne (kategorie Safe Harbor 13, 16 i 17) wymagają innych narzędzi.

Walidacja jest wymagana. Narzędzia automatyczne pomijają niektóre elementy. Wskaźnik 0,1% błędów przy 200 000 rekordach oznacza 200 rekordów z żywym PHI. To realne ryzyko HIPAA. Nie pomijaj walidacji.

Skonsultuj się ze swoim urzędem ds. prywatności. Zatwierdzenie IRB dla badania nie obejmuje metody czyszczenia. Większość ośrodków osobno weryfikuje podejścia do usuwania PHI. Ten przewodnik uzupełnia tę weryfikację — nie zastępuje jej.

Expert Determination jest opcją. HIPAA dopuszcza również czyszczenie metodą „Expert Determination“ (45 CFR §164.514(b)(1)). Ekspert statystyczny certyfikuje, że ryzyko re-identyfikacji jest bardzo małe. Ta ścieżka pasuje do niestandardowych zbiorów danych. Sprawdza się, gdy usunięcie wszystkich dat zniszczyłoby analizę szeregów czasowych.

Dla porównania automatycznych narzędzi do PHI — zob. porównanie dokładności detekcji PHI.

Podsumowanie

Badania w ochronie zdrowia mogące pomóc pacjentom są blokowane przez koszty usuwania PHI. Ręczna weryfikacja nie skaluje się. Narzędzia enterprise kosztują więcej niż pozwala większość grantów. Zbiory danych pozostają zablokowane lub nieprawidłowo oczyszczone.

Wsadowe przetwarzanie tokenowe sprawia, że badania na dużą skalę stają się wykonalne. Ośrodki akademickie i niezależni badacze uzyskują tę samą dokładność co duże systemy szpitalne. W ramach standardowego budżetu grantu.

Źródła

Pokrewne artykuły

Służba zdrowia

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

Rozpocznij bezpłatny okres próbny Zobacz funkcje

De-identyfikacja HIPAA Safe Harbor w skali: przewodnik dla badaczy