By · Last updated 2026-04-02

Povratak na BlogZdravstvo

LLM-ovi propustaju 50% klinickih PHI

Studija iz 2025. otkrila je da LLM-ovi propustaju vise od 50% klinickih PHI u visejezicnim dokumentima. 34,8% svih ChatGPT unosa sadrzi osjetljive podatke.

April 2, 20269 min čitanja
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Problem stope propustanja od 50%

Anketa iz 2025. (arXiv:2509.14464) testirala je LLM alate na klinickim zapisima. Rezultati su bili losi. Ti alati propustili su vise od 50% klinickih PHI u visejezicnim dokumentima. Uzrok je jednostavan. LLM-ovi su izgradeni za generiranje teksta. Nisu izgradeni za zadatak detekcije s visokim odazivom koji HIPAA zahtijeva.

HIPAA Safe Harbor navodi 18 vrsta zasticenih identifikatora. Imena, datumi, telefonski brojevi, SSN-ovi, MRN-ovi, ID-ovi zdravstvenih planova, ID-ovi uredaja i IP adrese. Svaki zahtijeva vlastitu logiku detekcije.

Klinicke biljeske to cine jos tezim. Uzmimo ovaj primjer: "Pac. Ivan H., DOB 12.4.67., MRN 1234567, primljen 15.03.24., dr. Kovac napravio EKG." Jedna recenica. Pet zasticenih identifikatora. Vecina koristi kratice. Model izgraden za klinicko znacenje cesto ne uspijeva u zadatku detekcije.

Sto LLM-ovi propustaju i zasto

LLM alati zakazuju na klinickim zapisima na predvidljive nacine.

Identifikatori u kratkom obliku: Klinicke biljeske koriste kratice. DOB, MRN i Pac. su uobicajeni oblici. Model podesen za klinicko znacenje mozda nece oznaciti "Pac. Ivan H." kao ime. Izvlacenje osjetljivih podataka zahtijeva drugaciji cilj.

Datumi ovisni o kontekstu: Nisu svi datumi jednako rizicni. "Dob 67" je slabi pokazatelj. "DOB 12.4.67." je izravni zasticeni identifikator. "15.03.24." kao datum prijema takoder je zastiteno. Samo podudaranje uzoraka nije dovoljno.

Formati koji nisu americkog podrijetla: Cyberhaven (Q4 2025.) otkrio je da 34,8% svih ChatGPT unosa sadrzi osjetljive podatke, ukljucujuci visejezicni PII. U zdravstvu to znaci ID-ove zapisa koji nisu iz SAD-a, regionalne formate datuma i lokalne vrste zdravstvenih ID-ova. Alati obuceni na americkim podacima ih dosljedno propustaju.

Prilagodeni identifikatori bolnica: Bolnice koriste vlastite formate MRN-a, ID-ove osoblja i kodove lokacija. Ti nisu u standardnim NER podacima za obuku. Alat bez podrske za prilagodene entitete ih nece pronaci.

Rizik istrazivackih skupova podataka

Bolnica koja gradi istrazivacki skup podataka od 500.000 biljeski suocava se s pravim problemom uskladenosti. HIPAA poziva na standard "vrlo malog rizika" za deidentificirane podatke. Alat koji propusta polovicu svih zasticenih identifikatora ne moze zadovoljiti tu granicu.

Istrazivacki arhivi nisu cisti podaci. Biljeske obuhvacaju mnoge odjele, vremenska razdoblja i ponekad jezike. Alat koji radi na podacima o naplati mozda nece uspjeti na narativnim biljezkama. Osjetljivi podaci u slobodnom tekstu nemaju oznaku polja.

Odobrenje IRB-a dodaje vise zahtjeva. Institucije moraju pokazati koristenu metodu, uklonjene vrste identifikatora i provedene provjere. Alat koji propusta polovicu svih zapisa ne moze ispuniti te zahtjeve.

Pogledajte nas pregled uskladenosti i sigurnosne prakse za to kako anonym.legal podrzava HIPAA rad.

Popravak s tri sloja

Anketa iz 2025. pronasla je jedan jasan uzorak. Alati s najnizim stopama propustanja koristili su tri sloja detekcije.

Sloj jedan - regex: Pronalazi strukturirane identifikatore. SSN-ove, MRN-ove, telefonske brojeve, ID-ove zdravstvenih planova. Pouzdan za fiksne formate.

Sloj dva - NER: Koristi transformer modele. Pronalazi imena, datume i osjetljive podatke u narativnom tekstu. Radi tamo gdje regex ne moze.

Sloj tri - prilagodeni entiteti: Rukuje oblicima specificnim za lokaciju. Vlasnicki MRN uzorci, ID-ovi osoblja, kodovi objekata. Nijedan standardni model ih ne pokriva.

Cisto ML alati degradiraju na kratkim oblicima i tekstu koji nije na engleskom. Cisto regex alati propustaju osjetljive podatke bez oznake polja. Niti jedan sam po sebi nije dovoljan.

Samo trostruki dizajn postigao je stopu propustanja ispod 5% u anketi. To je granica za uskladenost s HIPAA Safe Harbor.

Pogledajte nas vodic o HIPAA Safe Harbor deidentifikaciji za istrazivanje za sljedece korake.

Izvori

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.