anonym.legal

By · Last updated 2026-04-02

Înapoi la BlogSănătate

LLM-urile Rateaza 50% din PHI Clinic

Un studiu din 2025 a constatat ca LLM-urile rateaza mai mult de 50% din PHI clinic in documente multilingve. 34,8% din toate intrarile ChatGPT contin date sensibile.

April 2, 20269 min citire
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Problema Ratei de Ratare de 50%

Un sondaj din 2025 (arXiv:2509.14464) a testat instrumente LLM pe dosare clinice. Rezultatele au fost proaste. Aceste instrumente au ratat mai mult de 50% din PHI-ul clinic in documentele multilingve. Cauza este simpla. LLM-urile sunt construite pentru producerea de text. Nu sunt construite pentru sarcina de detectie cu rata ridicata de recuperare pe care o impune HIPAA.

HIPAA Safe Harbor listeaza 18 tipuri de identificatori protejati. Nume, date, numere de telefon, SSN-uri, MRN-uri, ID-uri de plan de sanatate, ID-uri de dispozitive si adrese IP. Fiecare necesita logica proprie de detectie.

Notele clinice fac acest lucru mai dificil. Luati acest exemplu: Pt. John D., DOB 4/12/67, MRN 1234567, admis 03/15/24, Dr. Smith a comandat ECG. O propozitie. Cinci identificatori protejati. Cei mai multi folosesc forme scurte. Un model construit pentru inteles clinic esueaza adesea la sarcina de detectie.

Ce Rateaza LLM-urile si De Ce

Instrumentele LLM esueaza pe dosarele clinice in moduri tipice.

Identificatori in forma scurta: Notele clinice folosesc prescurtari. DOB, MRN si Pt. sunt forme comune. Un model ajustat pentru sens clinic poate sa nu marcheze un astfel de identificator ca un nume. Extragerea datelor sensibile necesita un obiectiv diferit.

Date dependente de context: Nu toate datele prezinta acelasi risc. Varsta 67 este un marcator slab. DOB 4/12/67 este un identificator protejat direct. 03/15/24 ca data de internare este de asemenea protejat. Simpla potrivire de tipare nu este suficienta.

Formate non-SUA: Cyberhaven (T4 2025) a constatat ca 34,8% din toate intrarile ChatGPT contin date sensibile, inclusiv PII multilingv. In sanatate, aceasta inseamna ID-uri de dosare non-SUA, formate regionale de date si tipuri locale de ID de sanatate. Instrumentele antrenate in SUA le rateaza constant.

Identificatori spitalicesti personalizati: Spitalele folosesc propriile formate MRN, ID-uri de personal si coduri de site. Acestea nu se afla in datele standard de antrenament NER. Un instrument fara suport pentru entitati personalizate nu le va gasi.

Riscul Setului de Date de Cercetare

Un spital care construieste un set de date de cercetare din 500.000 de note se confrunta cu o problema reala de conformitate. HIPAA impune un standard de risc foarte mic pentru datele de-identificate. Un instrument care rateaza jumatate din toti identificatorii protejati nu poate atinge acest prag.

Arhivele de cercetare nu sunt date curate. Notele acopera multe departamente, perioade de timp si uneori limbi. Un instrument care functioneaza pe datele de facturare poate esua pe notele narative. Datele sensibile in text liber nu au etichete de camp.

Aprobarea IRB adauga mai multe cerinte. Institutiile trebuie sa arate metoda folosita, tipurile de identificatori eliminati si verificarile efectuate. Un instrument care rateaza jumatate din toate inregistrarile nu poate indeplini aceste cerinte.

Vedeti prezentarea noastra de conformitate si practicile de securitate pentru modul in care anonym.legal sprijina activitatea HIPAA.

Solutia cu Trei Straturi

Sondajul din 2025 a gasit un model clar. Instrumentele cu cele mai mici rate de ratare au folosit trei straturi de detectie.

Stratul unu - regex: Gaseste identificatorii structurati. SSN-uri, MRN-uri, numere de telefon, ID-uri de plan de sanatate. Fiabil pe formate fixe.

Stratul doi - NER: Foloseste modele transformer. Gaseste nume, date si date sensibile in text narativ. Functioneaza acolo unde regex nu poate.

Stratul trei - entitati personalizate: Gestioneaza formele specifice site-ului. Tipare MRN proprietare, ID-uri de personal, coduri de facilitate. Niciun model standard nu le acopera.

Instrumentele ML pure se degradeaza pe forme scurte si text non-englez. Instrumentele pure regex rateaza datele sensibile fara eticheta de camp. Niciunul singur nu este suficient.

Numai designul cu trei straturi a atins rate de ratare sub 5% in sondaj. Acesta este pragul pentru conformitatea HIPAA Safe Harbor.

Vedeti ghidul nostru privind de-identificarea HIPAA Safe Harbor pentru cercetare pentru pasii urmatori.

Surse

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.