anonym.legal
Înapoi la BlogSănătate

De ce LLM-urile Ratează 50% din PHI Clinic...

Un studiu din 2025 a constatat că LLM-urile ratează mai mult de 50% din PHI clinic în documente multilingve.

April 2, 20269 min citire
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Problema Ratei de Ratare de 50%

Un sondaj din 2025 al instrumentelor de de-identificare bazate pe LLM (arXiv:2509.14464) a constatat că instrumentele LLM cu scop general ratează mai mult de 50% din PHI clinic în documente multilingve. Această cifră reflectă o nepotrivire arhitecturală fundamentală: LLM-urile sunt proiectate pentru înțelegerea și generarea limbajului, nu pentru sarcina structurată și cu recall ridicat de identificare pe care o necesită de-identificarea HIPAA.

Metoda Safe Harbor a Regulii de Confidențialitate HIPAA necesită eliminarea a 18 categorii specifice de identificatori: nume, date geografice, date, numere de telefon, numere de fax, adrese de e-mail, SSN-uri, numere de înregistrări medicale, numere de beneficiari ai planului de sănătate, numere de conturi, numere de certificate/licențe, VIN-uri, identificatori de dispozitive, URL-uri web, adrese IP, identificatori biometrici, fotografii cu fața completă și orice alt număr sau cod de identificare unic. Fiecare dintre aceste categorii are formate structurate care necesită logică de detecție specifică.

Notele clinice sunt locul în care dificultatea se concentrează. Luați în considerare un fragment tipic de notă clinică: "Pt. John D., DOB 4/12/67, MRN 1234567, prezentat la ED pe 03/15/24 cu durere în piept. Antecedente: HTN, DM. Dr. Smith a comandat ECG." Această singură propoziție conține un nume, data nașterii, MRN, data admiterii și medicul tratant — cinci identificatori HIPAA, unii în formă abreviată, încorporați în stenografia clinică.

Ce Ratează LLM-urile și De Ce

LLM-urile cu scop general eșuează pe PHI clinic în modele previzibile.

Identificatori abreviați: Notele clinice folosesc abrevieri standard (DOB pentru data nașterii, MRN pentru numărul înregistrării medicale, Pt. pentru pacient) pe care NER fără context poate să nu le recunoască ca markeri PII. Un LLM care citește nota de mai sus pentru înțelegere clinică generală înțelege sensul clinic; un LLM însărcinat cu extragerea PHI poate rata "Pt. John D." ca model de nume parțial.

Date dependente de context: Datele din notele clinice au semnificație HIPAA specifică. "Vârsta 67" este un de-identificator parțial care trebuie notat. "DOB 4/12/67" este PHI. "03/15/24" ca dată de admitere este PHI. Acestea necesită extragere de date conștientă de context, nu doar potrivire de modele de date.

Formate de identificatori regionale: Cercetarea de Cyberhaven (Q4 2025) a constatat că 34,8% din toate intrările ChatGPT conțin date sensibile inclusiv PII multilingv. În contexte de sănătate, aceasta include formate de înregistrări medicale non-SUA, convenții de date internaționale și formate de identificatori de sănătate specifice țării pe care sistemele axate pe SUA le ratează.

Identificatori instituționali personalizați: Sistemele de sănătate folosesc formate MRN proprietare, ID-uri de angajați și coduri de facilități care nu fac parte din datele de antrenament NER standard. Un sistem fără suport pentru tipuri de entități personalizate nu poate detecta acestea.

Problema Conformității Setului de Date de Cercetare

Un sistem de spital care construiește un set de date de cercetare de-identificat din 500.000 de note clinice se confruntă cu un risc compus. HIPAA necesită ca seturile de date de cercetare de-identificate să îndeplinească standardul "risc foarte mic" conform metodei Safe Harbor sau abordarea statistică conform Expert Determination. Un sistem care ratează 50% din PHI produce un set de date care nu îndeplinește acest standard — expunând instituția de cercetare la aplicarea OCR și eșecuri de conformitate IRB.

Notele clinice dintr-un set de date de cercetare nu sunt uniforme. Se întind pe diferite departamente (cardiologie, oncologie, psihiatrie), stiluri diferite de documentare, perioade diferite și — în sistemele de sănătate multilingve — limbi diferite. Un sistem de de-identificare care funcționează adecvat pe date de facturare structurate poate eșua pe note de progres psihiatrice nestructurate în care PHI apare în context narativ mai degrabă decât în câmpuri etichetate.

Cerința de Detecție Hibridă

Sondajul de cercetare din 2025 a identificat modelul consistent: sistemele cu cel mai mare recall PHI combină detecția identificatorului structurat (regex pentru SSN-uri, MRN-uri, numere de telefon) cu NER contextual (modele bazate pe transformer pentru nume, date în context narativ) și suport pentru entități personalizate (identificatori specifici instituției).

Abordările pure ML obțin recall ridicat pe identificatori comuni în text bine formatat, dar se degradează pe abrevieri, tipuri rare de identificatori și text non-englez. Abordările pure regex obțin recall ridicat pe identificatori structurați, dar ratează PHI contextual (numele unui medic menționat într-o narație clinică fără prefix de titlu).

Arhitectura hibridă cu trei niveluri — regex pentru identificatori structurați, NLP pentru PHI contextual, modele transformer pentru forme multilingve și prescurtate — este modelul identificat de sondaj ca realizând rate de ratare sub 5% potrivite pentru conformitatea HIPAA Safe Harbor.

Surse:

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.