Problem współczynnika pominięć na poziomie 50%

Badanie z 2025 roku (arXiv:2509.14464) przetestowało narzędzia LLM na dokumentacji klinicznej. Wyniki były alarmujące: narzędzia te pomijały ponad 50% klinicznych PHI w dokumentach wielojęzycznych. Przyczyna jest prosta. Modele językowe są budowane z myślą o generowaniu tekstu — nie o zadaniu detekcji o wysokim współczynniku odzysku, jakiego wymaga HIPAA.

HIPAA Safe Harbor wymienia 18 chronionych typów identyfikatorów: imiona i nazwiska, daty, numery telefonów, numery PESEL, numery MRN, identyfikatory planów zdrowotnych, identyfikatory urządzeń i adresy IP. Każdy z nich wymaga odrębnej logiki detekcji.

Notatki kliniczne dodatkowo utrudniają zadanie. Weźmy przykład: „Pacj. Jan K., data ur. 12.04.67, MRN 1234567, przyjęty 15.03.24, dr Kowalski zlecił EKG.” Jedno zdanie, pięć chronionych identyfikatorów. Większość z nich używa skróconych form. Model trenowany pod kątem rozumienia treści klinicznych często zawodzi przy zadaniu detekcji.

Co i dlaczego pomijają modele językowe

Narzędzia LLM mają charakterystyczne słabe punkty w pracy z dokumentacją kliniczną.

Identyfikatory skrócone: notatki kliniczne używają skrótów. Data ur., MRN i pacj. to powszechne formy. Model dostrojony do rozumienia znaczenia klinicznego może nie oznaczyć „pacj. Jan K.” jako imienia. Ekstrakcja danych wrażliwych wymaga innego celu.

Daty zależne od kontekstu: nie wszystkie daty niosą to samo ryzyko. „Wiek 67 lat” to miękki znacznik. „Data ur. 12.04.67” to bezpośredni chroniony identyfikator. „15.03.24” jako data przyjęcia również podlega ochronie. Samo dopasowywanie wzorców nie wystarczy.

Formaty spoza USA: Cyberhaven (Q4 2025) ustalił, że 34,8% wszystkich danych wprowadzanych do ChatGPT zawiera wrażliwe informacje, w tym wielojęzyczne PII. W opiece zdrowotnej oznacza to identyfikatory z dokumentacji spoza USA, regionalne formaty dat i lokalne typy identyfikatorów zdrowotnych. Narzędzia trenowane na danych amerykańskich konsekwentnie je pomijają.

Własne identyfikatory szpitali: szpitale stosują własne formaty MRN, identyfikatory personelu i kody oddziałów. Nie ma ich w standardowych danych treningowych NER. Narzędzie bez obsługi niestandardowych encji ich nie wykryje.

Ryzyko w zbiorach danych badawczych

Szpital budujący zbiór danych badawczych z 500 000 notatek stoi przed realnym problemem compliance. HIPAA wymaga „bardzo małego ryzyka” dla danych zdeidentyfikowanych. Narzędzie pomijające połowę wszystkich chronionych identyfikatorów nie może spełnić tego kryterium.

Archiwa badawcze to niejednorodne dane. Notatki pochodzą z wielu oddziałów, różnych okresów, a niekiedy różnych języków. Narzędzie sprawdzające się na danych rozliczeniowych może zawieść przy notatkach narracyjnych. Dane wrażliwe w tekście swobodnym nie mają etykiet pól.

Zatwierdzenie IRB stawia kolejne wymagania. Instytucje muszą wykazać zastosowaną metodę, usunięte typy identyfikatorów i przeprowadzone kontrole. Narzędzie pomijające połowę wszystkich rekordów nie może sprostać tym wymaganiom.

Zapoznaj się z naszym przeglądem compliance i praktykami bezpieczeństwa — sprawdź, jak anonym.legal wspiera zgodność z HIPAA.

Trójwarstwowe rozwiązanie

Badanie z 2025 roku wykazało jeden wyraźny wzorzec. Narzędzia o najniższych współczynnikach pominięć stosowały trzy warstwy detekcji.

Warstwa pierwsza — regex: wykrywa strukturalne identyfikatory. Numery PESEL, MRN, numery telefonów, identyfikatory planów zdrowotnych. Niezawodna przy stałych formatach.

Warstwa druga — NER: używa modeli transformerowych. Wykrywa imiona, daty i dane wrażliwe w tekście narracyjnym. Działa tam, gdzie regex zawodzi.

Warstwa trzecia — encje niestandardowe: obsługuje formy specyficzne dla danej placówki. Własne wzorce MRN, identyfikatory personelu, kody obiektów. Żaden standardowy model ich nie obejmuje.

Czyste narzędzia ML degradują się przy skróconych formach i tekstach spoza języka angielskiego. Czyste narzędzia regex pomijają wrażliwe dane bez etykiet pól. Żadne z nich osobno nie wystarczy.

Tylko projekt trójwarstwowy osiągnął współczynnik pominięć poniżej 5% w badaniu. To jest poziom wymagany dla zgodności z HIPAA Safe Harbor.

Zobacz nasz przewodnik po deidentyfikacji HIPAA Safe Harbor w badaniach medycznych, aby zaplanować kolejne kroki.

Źródła

Pokrewne artykuły

Służba zdrowia

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

Rozpocznij bezpłatny okres próbny Zobacz funkcje

Modele językowe pomijają 50% klinicznych PHI

Problem współczynnika pominięć na poziomie 50%

Co i dlaczego pomijają modele językowe

Ryzyko w zbiorach danych badawczych

Trójwarstwowe rozwiązanie

Źródła

Pokrewne artykuły

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Gotowy, aby chronić swoje dane?

Modele językowe pomijają 50% klinicznych PHI

Problem współczynnika pominięć na poziomie 50%

Co i dlaczego pomijają modele językowe

Ryzyko w zbiorach danych badawczych

Trójwarstwowe rozwiązanie

Źródła

Pokrewne artykuły

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Gotowy, aby chronić swoje dane?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow