Powrót do blogaSłużba zdrowia

Dlaczego LLM-y pomijają 50% klinicznych PHI...

Badanie z 2025 roku wykazało, że LLM-y pomijają ponad 50% klinicznych PHI w wielojęzycznych dokumentach.

April 2, 20269 min czytania
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Problem 50% wskaźnika pominięcia

Badanie z 2025 roku dotyczące narzędzi do de-identyfikacji opartych na LLM (arXiv:2509.14464) wykazało, że ogólne narzędzia LLM pomijają więcej niż 50% klinicznych PHI w wielojęzycznych dokumentach. Ta liczba odzwierciedla fundamentalne niedopasowanie architektoniczne: LLM-y są zaprojektowane do rozumienia i generowania języka, a nie do strukturalnego, wysokopamięciowego zadania identyfikacji, które wymaga de-identyfikacja zgodna z HIPAA.

Metoda Safe Harbor w ramach HIPAA wymaga usunięcia 18 specyficznych kategorii identyfikatorów: imion, danych geograficznych, dat, numerów telefonów, numerów faksów, adresów e-mail, numerów SSN, numerów kartotek medycznych, numerów beneficjentów planu zdrowotnego, numerów kont, numerów certyfikatów/licencji, numerów VIN, identyfikatorów urządzeń, adresów URL, adresów IP, identyfikatorów biometrycznych, zdjęć całej twarzy oraz wszelkich innych unikalnych numerów lub kodów identyfikacyjnych. Każda z tych kategorii ma strukturalne formaty, które wymagają specyficznej logiki detekcji.

Notatki kliniczne to miejsce, gdzie koncentruje się trudność. Rozważmy typowy fragment notatki klinicznej: "Pt. John D., DOB 4/12/67, MRN 1234567, zgłosił się do ED 03/15/24 z bólem w klatce piersiowej. Historia: HTN, DM. Dr. Smith zlecił EKG." To jedno zdanie zawiera imię, datę urodzenia, MRN, datę przyjęcia i lekarza prowadzącego — pięć identyfikatorów HIPAA, niektóre w skróconej formie, osadzone w skrócie klinicznym.

Co LLM-y pomijają i dlaczego

Ogólne LLM-y zawodzą w przypadku klinicznych PHI w przewidywalnych wzorcach.

Skrócone identyfikatory: Notatki kliniczne używają standardowych skrótów (DOB dla daty urodzenia, MRN dla numeru kartoteki medycznej, Pt. dla pacjenta), które mogą nie być rozpoznawane przez NER bez kontekstu jako wskaźniki PII. LLM czytający powyższą notatkę w celu ogólnego zrozumienia rozumie znaczenie kliniczne; LLM odpowiedzialny za ekstrakcję PHI może pominąć "Pt. John D." jako częściowy wzór imienia.

Daty zależne od kontekstu: Daty w notatkach klinicznych mają specyficzne znaczenie w kontekście HIPAA. "Wiek 67" to częściowy de-identyfikator, który musi być zauważony. "DOB 4/12/67" to PHI. "03/15/24" jako data przyjęcia to PHI. Wymagają one wydobycia dat z uwzględnieniem kontekstu, a nie tylko dopasowania wzorów dat.

Formaty identyfikatorów regionalnych: Badania przeprowadzone przez Cyberhaven (Q4 2025) wykazały, że 34,8% wszystkich danych wejściowych ChatGPT zawiera wrażliwe dane, w tym wielojęzyczne PII. W kontekście opieki zdrowotnej obejmuje to formaty kartotek medycznych spoza USA, międzynarodowe konwencje dat oraz specyficzne dla kraju formaty identyfikatorów zdrowotnych, które systemy skoncentrowane na USA pomijają.

Niestandardowe identyfikatory instytucjonalne: Systemy zdrowotne używają własnych formatów MRN, identyfikatorów pracowników i kodów placówek, które nie są częścią standardowych danych treningowych NER. System bez wsparcia dla niestandardowych typów encji nie może ich wykryć.

Problem zgodności zestawu danych badawczych

System szpitalny budujący zestaw danych badawczych bez identyfikacji z 500,000 notatek klinicznych staje w obliczu złożonego ryzyka. HIPAA wymaga, aby zestawy danych badawczych bez identyfikacji spełniały standard "bardzo małego ryzyka" w ramach metody Safe Harbor lub podejścia statystycznego w ramach Ekspertowej Determinacji. System, który pomija 50% PHI, produkuje zestaw danych, który nie spełnia tego standardu — narażając instytucję badawczą na egzekucję OCR i niezgodności z IRB.

Notatki kliniczne w zestawie danych badawczych nie są jednorodne. Obejmują różne działy (kardiologia, onkologia, psychiatria), różne style dokumentacji, różne okresy czasu i — w wielojęzycznych systemach zdrowotnych — różne języki. System de-identyfikacji, który działa odpowiednio na strukturalnych danych billingowych, może zawieść w przypadku niestrukturalnych notatek postępu psychiatrycznego, gdzie PHI pojawia się w kontekście narracyjnym, a nie w oznaczonych polach.

Wymóg detekcji hybrydowej

Badanie z 2025 roku zidentyfikowało spójny wzór: systemy z najwyższym wskaźnikiem przypomnienia PHI łączą detekcję strukturalnych identyfikatorów (regex dla SSN, MRN, numerów telefonów) z kontekstowym NER (modele oparte na transformatorach dla imion, dat w kontekście narracyjnym) oraz wsparciem dla niestandardowych encji (identyfikatory specyficzne dla instytucji).

Czyste podejścia ML osiągają wysoki wskaźnik przypomnienia dla powszechnych identyfikatorów w dobrze sformatowanym tekście, ale pogarszają się w przypadku skrótów, rzadkich typów identyfikatorów i tekstu nieangielskiego. Czyste podejścia regex osiągają wysoki wskaźnik przypomnienia dla strukturalnych identyfikatorów, ale pomijają kontekstowe PHI (imię lekarza wspomniane w narracji klinicznej bez prefiksu tytułu).

Hybrydowa architektura trójwarstwowa — regex dla strukturalnych identyfikatorów, NLP dla kontekstowego PHI, modele transformatorowe dla form międzyjęzycznych i skróconych — to wzór zidentyfikowany w badaniu jako osiągający wskaźniki pominięcia poniżej 5% odpowiednie dla zgodności z HIPAA Safe Harbor.

Źródła:

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.