By · Last updated 2026-04-02

Powrót do blogaSłużba zdrowia

Modele językowe pomijają 50% klinicznych PHI

Badanie z 2025 roku wykazało, że modele językowe pomijają ponad 50% klinicznych PHI w dokumentach wielojęzycznych. 34,8% wszystkich danych wprowadzanych do ChatGPT zawiera informacje wrażliwe.

April 2, 20269 min czytania
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Problem współczynnika pominięć na poziomie 50%

Badanie z 2025 roku (arXiv:2509.14464) przetestowało narzędzia LLM na dokumentacji klinicznej. Wyniki były alarmujące: narzędzia te pomijały ponad 50% klinicznych PHI w dokumentach wielojęzycznych. Przyczyna jest prosta. Modele językowe są budowane z myślą o generowaniu tekstu — nie o zadaniu detekcji o wysokim współczynniku odzysku, jakiego wymaga HIPAA.

HIPAA Safe Harbor wymienia 18 chronionych typów identyfikatorów: imiona i nazwiska, daty, numery telefonów, numery PESEL, numery MRN, identyfikatory planów zdrowotnych, identyfikatory urządzeń i adresy IP. Każdy z nich wymaga odrębnej logiki detekcji.

Notatki kliniczne dodatkowo utrudniają zadanie. Weźmy przykład: „Pacj. Jan K., data ur. 12.04.67, MRN 1234567, przyjęty 15.03.24, dr Kowalski zlecił EKG.” Jedno zdanie, pięć chronionych identyfikatorów. Większość z nich używa skróconych form. Model trenowany pod kątem rozumienia treści klinicznych często zawodzi przy zadaniu detekcji.

Co i dlaczego pomijają modele językowe

Narzędzia LLM mają charakterystyczne słabe punkty w pracy z dokumentacją kliniczną.

Identyfikatory skrócone: notatki kliniczne używają skrótów. Data ur., MRN i pacj. to powszechne formy. Model dostrojony do rozumienia znaczenia klinicznego może nie oznaczyć „pacj. Jan K.” jako imienia. Ekstrakcja danych wrażliwych wymaga innego celu.

Daty zależne od kontekstu: nie wszystkie daty niosą to samo ryzyko. „Wiek 67 lat” to miękki znacznik. „Data ur. 12.04.67” to bezpośredni chroniony identyfikator. „15.03.24” jako data przyjęcia również podlega ochronie. Samo dopasowywanie wzorców nie wystarczy.

Formaty spoza USA: Cyberhaven (Q4 2025) ustalił, że 34,8% wszystkich danych wprowadzanych do ChatGPT zawiera wrażliwe informacje, w tym wielojęzyczne PII. W opiece zdrowotnej oznacza to identyfikatory z dokumentacji spoza USA, regionalne formaty dat i lokalne typy identyfikatorów zdrowotnych. Narzędzia trenowane na danych amerykańskich konsekwentnie je pomijają.

Własne identyfikatory szpitali: szpitale stosują własne formaty MRN, identyfikatory personelu i kody oddziałów. Nie ma ich w standardowych danych treningowych NER. Narzędzie bez obsługi niestandardowych encji ich nie wykryje.

Ryzyko w zbiorach danych badawczych

Szpital budujący zbiór danych badawczych z 500 000 notatek stoi przed realnym problemem compliance. HIPAA wymaga „bardzo małego ryzyka” dla danych zdeidentyfikowanych. Narzędzie pomijające połowę wszystkich chronionych identyfikatorów nie może spełnić tego kryterium.

Archiwa badawcze to niejednorodne dane. Notatki pochodzą z wielu oddziałów, różnych okresów, a niekiedy różnych języków. Narzędzie sprawdzające się na danych rozliczeniowych może zawieść przy notatkach narracyjnych. Dane wrażliwe w tekście swobodnym nie mają etykiet pól.

Zatwierdzenie IRB stawia kolejne wymagania. Instytucje muszą wykazać zastosowaną metodę, usunięte typy identyfikatorów i przeprowadzone kontrole. Narzędzie pomijające połowę wszystkich rekordów nie może sprostać tym wymaganiom.

Zapoznaj się z naszym przeglądem compliance i praktykami bezpieczeństwa — sprawdź, jak anonym.legal wspiera zgodność z HIPAA.

Trójwarstwowe rozwiązanie

Badanie z 2025 roku wykazało jeden wyraźny wzorzec. Narzędzia o najniższych współczynnikach pominięć stosowały trzy warstwy detekcji.

Warstwa pierwsza — regex: wykrywa strukturalne identyfikatory. Numery PESEL, MRN, numery telefonów, identyfikatory planów zdrowotnych. Niezawodna przy stałych formatach.

Warstwa druga — NER: używa modeli transformerowych. Wykrywa imiona, daty i dane wrażliwe w tekście narracyjnym. Działa tam, gdzie regex zawodzi.

Warstwa trzecia — encje niestandardowe: obsługuje formy specyficzne dla danej placówki. Własne wzorce MRN, identyfikatory personelu, kody obiektów. Żaden standardowy model ich nie obejmuje.

Czyste narzędzia ML degradują się przy skróconych formach i tekstach spoza języka angielskiego. Czyste narzędzia regex pomijają wrażliwe dane bez etykiet pól. Żadne z nich osobno nie wystarczy.

Tylko projekt trójwarstwowy osiągnął współczynnik pominięć poniżej 5% w badaniu. To jest poziom wymagany dla zgodności z HIPAA Safe Harbor.

Zobacz nasz przewodnik po deidentyfikacji HIPAA Safe Harbor w badaniach medycznych, aby zaplanować kolejne kroki.

Źródła

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.