Az 50%-os hibaráta problémája
Egy 2025-ös áttekintés (arXiv:2509.14464) LLM-eszközöket tesztelt klinikai dokumentáción. Az eredmények lesújtóak. Ezek az eszközök a klinikai PHI több mint 50%-át elmulasztották többnyelvű dokumentumokban. Az ok egyszerű. A nagy nyelvi modellek szöveggenerálásra épültek. Nem az a feladatuk, amely a HIPAA által megkövetelt, magas visszahívási arányú detektálást jelenti.
A HIPAA Safe Harbor 18 védett azonosítótípust sorol fel. Nevek, dátumok, telefonszámok, TAJ-számok, kórházi betegszámok (MRN), egészségbiztosítási azonosítók, eszközazonosítók és IP-címek. Mindegyik saját detektálási logikát igényel.
A klinikai feljegyzések tovább nehezítik a helyzetet. Példa: „Pt. John D., DOB 4/12/67, MRN 1234567, felvéve 03/15/24, Dr. Smith EKG-t rendelt el.” Egyetlen mondat. Öt védett azonosító. A legtöbb rövidített formát alkalmaz. A klinikai jelentésre hangolt modell gyakran csődöt mond a detektálási feladatnál.
Mit és miért mulasztanak el a nagy nyelvi modellek
Az LLM-eszközök klinikai dokumentáción jellegzetes módon buknak el.
Rövidített azonosítók: A klinikai feljegyzések rövidítéseket alkalmaznak. A DOB, MRN és Pt. megszokott formák. A klinikai jelentésre hangolt modell esetleg nem jelöli meg a „Pt. John D.”-t névként. Az érzékeny adatok kinyeréséhez más célkitűzés szükséges.
Kontextusfüggő dátumok: Nem minden dátum jelent azonos kockázatot. A „67 éves” lágy jelzőszám. A „DOB 4/12/67” közvetlen, védett azonosító. A felvételi dátumként szereplő „03/15/24” szintén védett. A mintaillesztés önmagában nem elegendő.
Nem US-formátumok: A Cyberhaven (Q4 2025) megállapította, hogy a ChatGPT-bevitelek 34,8%-a érzékeny adatokat tartalmaz, köztük többnyelvű személyes adatokat. Az egészségügyben ez nem US-betegszámokat, regionális dátumformátumokat és helyi egészségügyi azonosítótípusokat jelent. Az US-ra betanított eszközök ezeket következetesen elmulasztják.
Egyedi kórházi azonosítók: A kórházak saját MRN-formátumokat, dolgozói azonosítókat és helyszínkódokat alkalmaznak. Ezek nem szerepelnek a standard NER-tanítóadatokban. Egyéni entitástámogatás nélküli eszköz nem találja meg őket.
A kutatási adatkészlet kockázata
Egy 500 000 feljegyzésből kutatási adatkészletet építő kórház valós megfelelési problémával néz szembe. A HIPAA „nagyon alacsony kockázat” mércét ír elő az anonimizált adatokra. Egy eszköz, amely a védett azonosítók felét elmulasztja, nem tud megfelelni ennek a követelménynek.
A kutatási archívumok nem tiszta adatok. A feljegyzések több osztályról, időszakból, és olykor több nyelvből merítkeznek. Az a eszköz, amely a számlázási adatokon működik, esetleg megbukik a narratív feljegyzéseken. A szabad szöveges érzékeny adatokhoz nincs mezőcímke.
Az Intézményi Felülvizsgálati Testület (IRB) jóváhagyása további követelményeket támaszt. Az intézményeknek be kell mutatniuk az alkalmazott módszert, az eltávolított azonosítótípusokat és az elvégzett ellenőrzéseket. Egy eszköz, amely a rekordok felét elmulasztja, nem tud eleget tenni ezeknek a követelményeknek.
Tekintse meg a megfelelési áttekintőnket és a biztonsági gyakorlatainkat, amelyek bemutatják, hogyan támogatja az anonym.legal a HIPAA-munkát.
A háromrétegű megoldás
A 2025-ös áttekintés egyértelmű mintát tárt fel. A legalacsonyabb hibarátájú eszközök három detektálási réteget alkalmaztak.
Első réteg — regex: Strukturált azonosítókat keres. TAJ-számok, MRN-ek, telefonszámok, egészségbiztosítási azonosítók. Rögzített formátumokon megbízható.
Második réteg — NER: Transzformermodelleket alkalmaz. Neveket, dátumokat és érzékeny adatokat keres narratív szövegben. Ott működik, ahol a regex nem tud.
Harmadik réteg — egyéni entitások: Helyszínspecifikus formátumokat kezel. Saját MRN-minták, dolgozói azonosítók, létesítménykódok. Ezeket egyetlen standard modell sem fedi le.
A tisztán gépi tanulásra épülő eszközök romlanak rövidített forrásokon és nem angol szövegen. A tisztán regex-alapú eszközök elmulasztják a mezőcímke nélküli érzékeny adatokat. Egyikük önmagában sem elegendő.
Csak a háromrétegű tervezés ért el 5% alatti hibarátát a felmérésben. Ez a HIPAA Safe Harbor-megfelelés mércéje.
Következő lépésekért tekintse meg a HIPAA Safe Harbor anonimizálási útmutatónkat kutatási célra.