anonym.legal

By · Last updated 2026-04-02

Povratak na blogZdravstvo

LLM-ovi propuštaju 50% kliničkih PHI podataka

Istraživanje iz 2025. godine otkrilo je da LLM alati propuštaju više od 50% kliničkih PHI podataka u višejezičnim dokumentima. 34,8% svih ChatGPT unosa sadrži osetljive podatke.

April 2, 20269 min čitanja
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Problem sa stopom propuštanja od 50%

Istraživanje iz 2025. (arXiv:2509.14464) testiralo je LLM alate na kliničkim zapisima. Rezultati su bili loši. Ovi alati propustili su više od 50% kliničkih PHI podataka u višejezičnim dokumentima. Uzrok je jednostavan. LLM-ovi su napravljeni za generisanje teksta. Nisu napravljeni za zadatak detekcije s visokim odazivom koji HIPAA zahteva.

HIPAA Safe Harbor navodi 18 vrsta zaštićenih identifikatora. Imena, datumi, telefonski brojevi, SSN-ovi, MRN-ovi, ID-ovi zdravstvenih planova, ID-ovi uredjaja i IP adrese. Svaki zahteva sopstvenu logiku detekcije.

Klinički zapisi to dodatno otežavaju. Uzmimo ovaj primer: "Pt. John D., DOB 4/12/67, MRN 1234567, primljen 03/15/24, Dr. Smith naložio EKG." Jedna rečenica. Pet zaštićenih identifikatora. Većina koristi skraćene oblike. Model napravljen za kliničko razumevanje često ne uspeva u zadatku detekcije.

Šta LLM-ovi propuštaju i zašto

LLM alati ne uspevaju na kliničkim zapisima na predvidiv način.

Kratki identifikatori: Klinički zapisi koriste skraćenice. DOB, MRN i Pt. su uobičajeni oblici. Model podešen za kliničko razumevanje možda neće označiti "Pt. John D." kao ime. Ekstrakcija osetljivih podataka zahteva drugačiji cilj.

Datumi zavisni od konteksta: Nisu svi datumi jednako rizični. "Starost 67" je mekani marker. "DOB 4/12/67" je direktan zaštićeni identifikator. "03/15/24" kao datum prijema je takodje zaštićen. Samo podudaranje obrazaca nije dovoljno.

Ne-američki formati: Cyberhaven (Q4 2025) otkrio je da 34,8% svih ChatGPT unosa sadrži osetljive podatke, uključujući višejezični PII. U zdravstvenim uslugama, to znači ne-američki ID zapisi, regionalni formati datuma i lokalni tipovi zdravstvenih ID-ova. Alati obučeni na američkim podacima ovo konzistentno propuštaju.

Prilagodljivi identifikatori bolnica: Bolnice koriste sopstvene MRN formate, ID-ove osoblja i kodove lokacija. Ovi nisu u standardnim NER trening podacima. Alat bez podrške za prilagodljive entitete ih neće pronaći.

Rizik istraživačkih skupova podataka

Bolnica koja gradi istraživački skup podataka od 500.000 zapisa suočava se sa stvarnim problemom usklađenosti. HIPAA zahteva standard "veoma malog rizika" za de-identifikovane podatke. Alat koji propušta polovinu svih zaštićenih identifikatora ne može da ispuni taj standard.

Istraživački arhivi nisu čisti podaci. Zapisi obuhvataju mnoge odeljke, vremenska perioda i ponekad jezike. Alat koji funkcioniše na podacima za naplatu može da ne uspe na narativnim zapisima. Osetljivi podaci u slobodnom tekstu nemaju oznaku polja.

Odobrenje IRB-a dodaje još zahteva. Institucije moraju da pokažu korišćenu metodu, uklonjene tipove identifikatora i izvršene provere. Alat koji propušta polovinu svih zapisa ne može da ispuni te zahteve.

Pogledajte naš pregled usklađenosti i bezbednosne prakse za informacije o tome kako anonym.legal podržava HIPAA rad.

TroSlojno rešenje

Istraživanje iz 2025. otkrilo je jedan jasan obrazac. Alati s najnižim stopama propuštanja koristili su tri sloja detekcije.

Sloj jedan — regex: Pronalazi strukturirane identifikatore. SSN-ovi, MRN-ovi, telefonski brojevi, ID-ovi zdravstvenih planova. Pouzdano za fiksne formate.

Sloj dva — NER: Koristi transformer modele. Pronalazi imena, datume i osetljive podatke u narativnom tekstu. Funkcioniše tamo gde regex ne može.

Sloj tri — prilagodljivi entiteti: Rukuje oblicima specifičnim za lokaciju. Privatni MRN obrasci, ID-ovi osoblja, kodovi objekata. Nijedan standardni model ne pokriva ovo.

Čisti ML alati degradiraju na kratkim oblicima i ne-engleskom tekstu. Čisti regex alati propuštaju osetljive podatke bez oznake polja. Ni jedan sam po sebi nije dovoljan.

Samo troslojna arhitektura dostigla je stope propuštanja ispod 5% u istraživanju. To je standard za HIPAA Safe Harbor usklađenost.

Pogledajte naš vodič o HIPAA Safe Harbor de-identifikaciji za istraživanja za sledeće korake.

Izvori

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.