Het 50% Mispercentage Probleem
Een 2025-enquête (arXiv:2509.14464) testte LLM-tools op klinische records. De resultaten waren slecht. Deze tools misten meer dan 50% van klinische PHI in meertalige documenten. De oorzaak is eenvoudig: LLMs zijn gebouwd voor tekstuitvoer. Ze zijn niet gebouwd voor de hoge-recall detectietaak die HIPAA vereist.
HIPAA Safe Harbor somt 18 beschermde identifier-typen op: namen, datums, telefoonnummers, BSN's, MRN's, ziekteverzekerings-ID's, apparaat-ID's en IP-adressen.
Klinische notities maken dit moeilijker. Neem: "Pt. John D., DOB 4/12/67, MRN 1234567, opgenomen 03/15/24, Dr. Smith bestelde ECG." Één zin. Vijf beschermde identificatoren. De meeste gebruiken afkortingen.
Wat LLMs Missen en Waarom
Afkortingsidentificatoren: Klinische notities gebruiken steno. DOB, MRN en Pt. zijn gangbare vormen. Een model afgestemd op klinische betekenis markeert "Pt. John D." mogelijk niet als naam.
Contextafhankelijke datums: Niet alle datums vormen hetzelfde risico. "Leeftijd 67" is een zachte marker. "DOB 4/12/67" is een directe beschermde identifier.
Niet-VS-formaten: Cyberhaven (Q4 2025) vond dat 34,8% van alle ChatGPT-invoer gevoelige gegevens bevat, inclusief meertalige PII.
Aangepaste ziekenhuisidentificatoren: Ziekenhuizen gebruiken hun eigen MRN-formaten, personeels-ID's en locatiecodes.
De Drie-Laags Fix
De 2025-enquête vond één duidelijk patroon. De tools met de laagste mispercentages gebruikten drie detectielagen:
Laag één — regex: Vindt gestructureerde identificatoren. BSN's, MRN's, telefoonnummers.
Laag twee — NER: Gebruikt transformer-modellen. Vindt namen, datums en gevoelige gegevens in narratieve tekst.
Laag drie — aangepaste entiteiten: Behandelt sitespecifieke vormen. Propriëtaire MRN-patronen, personeels-ID's.
Alleen het drie-laags ontwerp bereikte sub-5% mispercentages in de enquête — de lat voor HIPAA Safe Harbor naleving.
Bekijk de HIPAA-nalevingsdocumentatie.