Problema Ratei de Ratare de 50%
Un sondaj din 2025 (arXiv:2509.14464) a testat instrumente LLM pe dosare clinice. Rezultatele au fost proaste. Aceste instrumente au ratat mai mult de 50% din PHI-ul clinic in documentele multilingve. Cauza este simpla. LLM-urile sunt construite pentru producerea de text. Nu sunt construite pentru sarcina de detectie cu rata ridicata de recuperare pe care o impune HIPAA.
HIPAA Safe Harbor listeaza 18 tipuri de identificatori protejati. Nume, date, numere de telefon, SSN-uri, MRN-uri, ID-uri de plan de sanatate, ID-uri de dispozitive si adrese IP. Fiecare necesita logica proprie de detectie.
Notele clinice fac acest lucru mai dificil. Luati acest exemplu: Pt. John D., DOB 4/12/67, MRN 1234567, admis 03/15/24, Dr. Smith a comandat ECG. O propozitie. Cinci identificatori protejati. Cei mai multi folosesc forme scurte. Un model construit pentru inteles clinic esueaza adesea la sarcina de detectie.
Ce Rateaza LLM-urile si De Ce
Instrumentele LLM esueaza pe dosarele clinice in moduri tipice.
Identificatori in forma scurta: Notele clinice folosesc prescurtari. DOB, MRN si Pt. sunt forme comune. Un model ajustat pentru sens clinic poate sa nu marcheze un astfel de identificator ca un nume. Extragerea datelor sensibile necesita un obiectiv diferit.
Date dependente de context: Nu toate datele prezinta acelasi risc. Varsta 67 este un marcator slab. DOB 4/12/67 este un identificator protejat direct. 03/15/24 ca data de internare este de asemenea protejat. Simpla potrivire de tipare nu este suficienta.
Formate non-SUA: Cyberhaven (T4 2025) a constatat ca 34,8% din toate intrarile ChatGPT contin date sensibile, inclusiv PII multilingv. In sanatate, aceasta inseamna ID-uri de dosare non-SUA, formate regionale de date si tipuri locale de ID de sanatate. Instrumentele antrenate in SUA le rateaza constant.
Identificatori spitalicesti personalizati: Spitalele folosesc propriile formate MRN, ID-uri de personal si coduri de site. Acestea nu se afla in datele standard de antrenament NER. Un instrument fara suport pentru entitati personalizate nu le va gasi.
Riscul Setului de Date de Cercetare
Un spital care construieste un set de date de cercetare din 500.000 de note se confrunta cu o problema reala de conformitate. HIPAA impune un standard de risc foarte mic pentru datele de-identificate. Un instrument care rateaza jumatate din toti identificatorii protejati nu poate atinge acest prag.
Arhivele de cercetare nu sunt date curate. Notele acopera multe departamente, perioade de timp si uneori limbi. Un instrument care functioneaza pe datele de facturare poate esua pe notele narative. Datele sensibile in text liber nu au etichete de camp.
Aprobarea IRB adauga mai multe cerinte. Institutiile trebuie sa arate metoda folosita, tipurile de identificatori eliminati si verificarile efectuate. Un instrument care rateaza jumatate din toate inregistrarile nu poate indeplini aceste cerinte.
Vedeti prezentarea noastra de conformitate si practicile de securitate pentru modul in care anonym.legal sprijina activitatea HIPAA.
Solutia cu Trei Straturi
Sondajul din 2025 a gasit un model clar. Instrumentele cu cele mai mici rate de ratare au folosit trei straturi de detectie.
Stratul unu - regex: Gaseste identificatorii structurati. SSN-uri, MRN-uri, numere de telefon, ID-uri de plan de sanatate. Fiabil pe formate fixe.
Stratul doi - NER: Foloseste modele transformer. Gaseste nume, date si date sensibile in text narativ. Functioneaza acolo unde regex nu poate.
Stratul trei - entitati personalizate: Gestioneaza formele specifice site-ului. Tipare MRN proprietare, ID-uri de personal, coduri de facilitate. Niciun model standard nu le acopera.
Instrumentele ML pure se degradeaza pe forme scurte si text non-englez. Instrumentele pure regex rateaza datele sensibile fara eticheta de camp. Niciunul singur nu este suficient.
Numai designul cu trei straturi a atins rate de ratare sub 5% in sondaj. Acesta este pragul pentru conformitatea HIPAA Safe Harbor.
Vedeti ghidul nostru privind de-identificarea HIPAA Safe Harbor pentru cercetare pentru pasii urmatori.