Problema Ratei de Ratare de 50%

Un sondaj din 2025 (arXiv:2509.14464) a testat instrumente LLM pe dosare clinice. Rezultatele au fost proaste. Aceste instrumente au ratat mai mult de 50% din PHI-ul clinic in documentele multilingve. Cauza este simpla. LLM-urile sunt construite pentru producerea de text. Nu sunt construite pentru sarcina de detectie cu rata ridicata de recuperare pe care o impune HIPAA.

HIPAA Safe Harbor listeaza 18 tipuri de identificatori protejati. Nume, date, numere de telefon, SSN-uri, MRN-uri, ID-uri de plan de sanatate, ID-uri de dispozitive si adrese IP. Fiecare necesita logica proprie de detectie.

Notele clinice fac acest lucru mai dificil. Luati acest exemplu: Pt. John D., DOB 4/12/67, MRN 1234567, admis 03/15/24, Dr. Smith a comandat ECG. O propozitie. Cinci identificatori protejati. Cei mai multi folosesc forme scurte. Un model construit pentru inteles clinic esueaza adesea la sarcina de detectie.

Ce Rateaza LLM-urile si De Ce

Instrumentele LLM esueaza pe dosarele clinice in moduri tipice.

Identificatori in forma scurta: Notele clinice folosesc prescurtari. DOB, MRN si Pt. sunt forme comune. Un model ajustat pentru sens clinic poate sa nu marcheze un astfel de identificator ca un nume. Extragerea datelor sensibile necesita un obiectiv diferit.

Date dependente de context: Nu toate datele prezinta acelasi risc. Varsta 67 este un marcator slab. DOB 4/12/67 este un identificator protejat direct. 03/15/24 ca data de internare este de asemenea protejat. Simpla potrivire de tipare nu este suficienta.

Formate non-SUA: Cyberhaven (T4 2025) a constatat ca 34,8% din toate intrarile ChatGPT contin date sensibile, inclusiv PII multilingv. In sanatate, aceasta inseamna ID-uri de dosare non-SUA, formate regionale de date si tipuri locale de ID de sanatate. Instrumentele antrenate in SUA le rateaza constant.

Identificatori spitalicesti personalizati: Spitalele folosesc propriile formate MRN, ID-uri de personal si coduri de site. Acestea nu se afla in datele standard de antrenament NER. Un instrument fara suport pentru entitati personalizate nu le va gasi.

Riscul Setului de Date de Cercetare

Un spital care construieste un set de date de cercetare din 500.000 de note se confrunta cu o problema reala de conformitate. HIPAA impune un standard de risc foarte mic pentru datele de-identificate. Un instrument care rateaza jumatate din toti identificatorii protejati nu poate atinge acest prag.

Arhivele de cercetare nu sunt date curate. Notele acopera multe departamente, perioade de timp si uneori limbi. Un instrument care functioneaza pe datele de facturare poate esua pe notele narative. Datele sensibile in text liber nu au etichete de camp.

Aprobarea IRB adauga mai multe cerinte. Institutiile trebuie sa arate metoda folosita, tipurile de identificatori eliminati si verificarile efectuate. Un instrument care rateaza jumatate din toate inregistrarile nu poate indeplini aceste cerinte.

Vedeti prezentarea noastra de conformitate si practicile de securitate pentru modul in care anonym.legal sprijina activitatea HIPAA.

Solutia cu Trei Straturi

Sondajul din 2025 a gasit un model clar. Instrumentele cu cele mai mici rate de ratare au folosit trei straturi de detectie.

Stratul unu - regex: Gaseste identificatorii structurati. SSN-uri, MRN-uri, numere de telefon, ID-uri de plan de sanatate. Fiabil pe formate fixe.

Stratul doi - NER: Foloseste modele transformer. Gaseste nume, date si date sensibile in text narativ. Functioneaza acolo unde regex nu poate.

Stratul trei - entitati personalizate: Gestioneaza formele specifice site-ului. Tipare MRN proprietare, ID-uri de personal, coduri de facilitate. Niciun model standard nu le acopera.

Instrumentele ML pure se degradeaza pe forme scurte si text non-englez. Instrumentele pure regex rateaza datele sensibile fara eticheta de camp. Niciunul singur nu este suficient.

Numai designul cu trei straturi a atins rate de ratare sub 5% in sondaj. Acesta este pragul pentru conformitatea HIPAA Safe Harbor.

Vedeti ghidul nostru privind de-identificarea HIPAA Safe Harbor pentru cercetare pentru pasii urmatori.

Surse

Articole Asemănătoare

Sănătate

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

Începeți Proba Gratuită Vizualizați Funcționalitățile

LLM-urile Rateaza 50% din PHI Clinic

Problema Ratei de Ratare de 50%

Ce Rateaza LLM-urile si De Ce

Riscul Setului de Date de Cercetare

Solutia cu Trei Straturi

Surse

Articole Asemănătoare

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Pregătit să vă protejați datele?

LLM-urile Rateaza 50% din PHI Clinic

Problema Ratei de Ratare de 50%

Ce Rateaza LLM-urile si De Ce

Riscul Setului de Date de Cercetare

Solutia cu Trei Straturi

Surse

Articole Asemănătoare

HIPAA MRN Detection Without a Regex PhD

HIPAA: Hospital-Specific MRN Detection

HIPAA Safe Harbor De-ID at Scale

Pregătit să vă protejați datele?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow