anonym.legal
Terug naar BlogGezondheidszorg

Waarom LLM's 50% van de klinische PHI missen...

Een studie uit 2025 heeft aangetoond dat LLM's meer dan 50% van de klinische PHI in meertalige documenten missen.

April 2, 20269 min lezen
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

Het 50% Misspercentage Probleem

Een enquête uit 2025 over LLM-gebaseerde de-identificatietools (arXiv:2509.14464) heeft aangetoond dat algemene LLM-tools meer dan 50% van de klinische PHI in meertalige documenten missen. Dit cijfer weerspiegelt een fundamentele architecturale mismatch: LLM's zijn ontworpen voor taalbegrip en -generatie, niet voor de gestructureerde, hoog-herkenbare identificatietaak die HIPAA-de-identificatie vereist.

De Safe Harbor-methode van de HIPAA Privacy Rule vereist het verwijderen van 18 specifieke identificatiecategorieën: namen, geografische gegevens, data, telefoonnummers, faxnummers, e-mailadressen, SSN's, medische recordnummers, nummers van gezondheidsplanbegunstigden, rekeningnummers, certificaat-/licentienummers, VIN's, apparaatsidentificaties, web-URL's, IP-adressen, biometrische identificatoren, volledige gezichtsfoto's en elk ander uniek identificatienummer of -code. Elk van deze categorieën heeft gestructureerde formaten die specifieke detectielogica vereisen.

Klinische notities zijn waar de moeilijkheid zich concentreert. Overweeg een typisch fragment van een klinische notitie: "Pt. John D., DOB 4/12/67, MRN 1234567, gepresenteerd aan ED op 03/15/24 met pijn op de borst. Vorige Hx: HTN, DM. Dr. Smith heeft ECG besteld." Deze enkele zin bevat een naam, geboortedatum, MRN, opnamedatum en behandelend arts — vijf HIPAA-identificatoren, sommige in afgekorte vorm, ingebed in klinische shorthand.

Wat LLM's Missen en Waarom

Algemene LLM's falen op klinische PHI in voorspelbare patronen.

Afgekorte identificatoren: Klinische notities gebruiken standaardafkortingen (DOB voor geboortedatum, MRN voor medisch recordnummer, Pt. voor patiënt) die contextvrije NER mogelijk niet herkent als PII-markers. Een LLM die de bovenstaande notitie leest voor algemeen begrip begrijpt de klinische betekenis; een LLM die is belast met PHI-extractie kan "Pt. John D." missen als een gedeeltelijk naam patroon.

Contextafhankelijke data: Data in klinische notities hebben specifieke HIPAA-betekenis. "Leeftijd 67" is een gedeeltelijke de-identificator die moet worden genoteerd. "DOB 4/12/67" is PHI. "03/15/24" als opnamedatum is PHI. Deze vereisen contextbewuste data-extractie, niet alleen patroonmatching van data.

Regionale identificatieformaten: Onderzoek door Cyberhaven (Q4 2025) heeft aangetoond dat 34,8% van alle ChatGPT-invoeren gevoelige gegevens bevat, waaronder meertalige PII. In zorgcontexten omvat dit niet-Amerikaanse medische recordformaten, internationale dataconventies en land-specifieke gezondheidsidentificatieformaten die door op de VS gerichte systemen worden gemist.

Aangepaste institutionele identificatoren: Gezondheidsystemen gebruiken eigen MRN-formaten, werknemers-ID's en faciliteitscodes die geen deel uitmaken van de standaard NER-trainingsdata. Een systeem zonder ondersteuning voor aangepaste entiteitstypen kan deze niet detecteren.

Het Probleem van Naleving van de Onderzoeksdataset

Een ziekenhuis dat een de-geïdentificeerde onderzoeksdataset opbouwt uit 500.000 klinische notities loopt een samengesteld risico. HIPAA vereist dat de-geïdentificeerde onderzoeksdatasets voldoen aan de "zeer kleine risico" standaard onder de Safe Harbor-methode of de statistische benadering onder Expert Determination. Een systeem dat 50% van de PHI mist, produceert een dataset die aan deze standaard niet voldoet — wat de onderzoeksinstelling blootstelt aan OCR-handhaving en IRB-nalevingsfouten.

De klinische notities in een onderzoeksdataset zijn niet uniform. Ze bestrijken verschillende afdelingen (cardiologie, oncologie, psychiatrie), verschillende documentatiestijlen, verschillende tijdsperioden, en — in meertalige gezondheidsystemen — verschillende talen. Een de-identificatiesysteem dat adequaat presteert op gestructureerde factureringsgegevens, kan falen op ongestructureerde psychiatrische voortgangsnotities waar PHI verschijnt in narratieve context in plaats van gelabelde velden.

De Hybride Detectievereiste

De onderzoeksenquête van 2025 identificeerde het consistente patroon: systemen met de hoogste PHI-herkenning combineren gestructureerde identificatiedetectie (regex voor SSN's, MRN's, telefoonnummers) met contextuele NER (transformer-gebaseerde modellen voor namen, data in narratieve context) en ondersteuning voor aangepaste entiteiten (institutionele identificatoren).

Pure ML-benaderingen behalen hoge herkenning op veelvoorkomende identificatoren in goed geformatteerde tekst, maar degraderen op afkortingen, zeldzame identificatietypes en niet-Engelse tekst. Pure regex-benaderingen behalen hoge herkenning op gestructureerde identificatoren, maar missen contextuele PHI (de naam van een arts die in een klinisch verhaal wordt genoemd zonder een titelprefix).

De hybride driedelige architectuur — regex voor gestructureerde identificatoren, NLP voor contextuele PHI, transformer-modellen voor cross-linguale en afgekorte vormen — is het patroon dat door de enquête is geïdentificeerd als geschikt voor misspercentages onder de 5% die voldoen aan de HIPAA Safe Harbor-naleving.

Bronnen:

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.