Volver al BlogSalud

Por qué los LLMs fallan en el 50% de la PHI clínica...

Un estudio de 2025 encontró que los LLMs fallan en más del 50% de la PHI clínica en documentos multilingües.

April 2, 20269 min de lectura
LLM PHI detectionHIPAA de-identificationclinical NLPSafe Harbor methodhealthcare AI compliance

El problema de la tasa de fallo del 50%

Una encuesta de 2025 sobre herramientas de desidentificación basadas en LLM (arXiv:2509.14464) encontró que las herramientas LLM de propósito general fallan en más del 50% de la PHI clínica en documentos multilingües. Esta cifra refleja un desajuste arquitectónico fundamental: los LLMs están diseñados para la comprensión y generación del lenguaje, no para la tarea estructurada de identificación de alto recuerdo que requiere la desidentificación de HIPAA.

El método Safe Harbor de la Regla de Privacidad de HIPAA requiere la eliminación de 18 categorías específicas de identificadores: nombres, datos geográficos, fechas, números de teléfono, números de fax, direcciones de correo electrónico, números de seguro social, números de registros médicos, números de beneficiarios de planes de salud, números de cuenta, números de certificados/licencias, VINs, identificadores de dispositivos, URLs web, direcciones IP, identificadores biométricos, fotografías de rostro completo y cualquier otro número o código identificador único. Cada una de estas categorías tiene formatos estructurados que requieren una lógica de detección específica.

Las notas clínicas son donde se concentra la dificultad. Considera un fragmento típico de una nota clínica: "Pt. John D., DOB 4/12/67, MRN 1234567, se presentó en ED el 03/15/24 con dolor en el pecho. Antecedentes: HTN, DM. El Dr. Smith ordenó ECG." Esta única oración contiene un nombre, fecha de nacimiento, MRN, fecha de admisión y médico tratante — cinco identificadores de HIPAA, algunos en forma abreviada, incrustados en una abreviatura clínica.

Lo que los LLMs no detectan y por qué

Los LLMs de propósito general fallan en la PHI clínica en patrones predecibles.

Identificadores abreviados: Las notas clínicas utilizan abreviaturas estándar (DOB para fecha de nacimiento, MRN para número de registro médico, Pt. para paciente) que el NER sin contexto puede no reconocer como marcadores de PII. Un LLM que lee la nota anterior para comprensión general entiende el significado clínico; un LLM encargado de la extracción de PHI puede pasar por alto "Pt. John D." como un patrón de nombre parcial.

Fechas dependientes del contexto: Las fechas en las notas clínicas tienen una significancia específica bajo HIPAA. "Edad 67" es un desidentificador parcial que debe ser señalado. "DOB 4/12/67" es PHI. "03/15/24" como fecha de admisión es PHI. Estos requieren extracción de fechas consciente del contexto, no solo coincidencia de patrones de fechas.

Formatos de identificadores regionales: La investigación de Cyberhaven (Q4 2025) encontró que el 34.8% de todas las entradas de ChatGPT contienen datos sensibles, incluyendo PII multilingüe. En contextos de atención médica, esto incluye formatos de registros médicos no estadounidenses, convenciones de fechas internacionales y formatos de identificadores de salud específicos de cada país que los sistemas enfocados en EE. UU. pasan por alto.

Identificadores institucionales personalizados: Los sistemas de salud utilizan formatos de MRN propietarios, ID de empleados y códigos de instalaciones que no son parte de los datos de entrenamiento estándar de NER. Un sistema sin soporte para tipos de entidad personalizados no puede detectar estos.

El problema de cumplimiento del conjunto de datos de investigación

Un sistema hospitalario que construye un conjunto de datos de investigación desidentificado a partir de 500,000 notas clínicas enfrenta un riesgo compuesto. HIPAA requiere que los conjuntos de datos de investigación desidentificados cumplan con el estándar de "muy bajo riesgo" bajo el método Safe Harbor o el enfoque estadístico bajo la Determinación de Expertos. Un sistema que falla en el 50% de la PHI produce un conjunto de datos que no cumple con este estándar — exponiendo a la institución de investigación a la aplicación de OCR y fallos de cumplimiento de IRB.

Las notas clínicas en un conjunto de datos de investigación no son uniformes. Se extienden por diferentes departamentos (cardiología, oncología, psiquiatría), diferentes estilos de documentación, diferentes períodos de tiempo y — en sistemas de salud multilingües — diferentes idiomas. Un sistema de desidentificación que funciona adecuadamente en datos de facturación estructurados puede fallar en notas de progreso psiquiátrico no estructuradas donde la PHI aparece en un contexto narrativo en lugar de en campos etiquetados.

El requisito de detección híbrida

La encuesta de investigación de 2025 identificó el patrón consistente: los sistemas con el mayor recuerdo de PHI combinan detección de identificadores estructurados (regex para SSNs, MRNs, números de teléfono) con NER contextual (modelos basados en transformadores para nombres, fechas en contexto narrativo) y soporte para entidades personalizadas (identificadores específicos de la institución).

Los enfoques de ML puro logran un alto recuerdo en identificadores comunes en texto bien formateado, pero se degradan en abreviaciones, tipos de identificadores raros y texto no inglés. Los enfoques de regex puro logran un alto recuerdo en identificadores estructurados, pero pasan por alto PHI contextual (el nombre de un médico mencionado en una narrativa clínica sin un prefijo de título).

La arquitectura híbrida de tres niveles — regex para identificadores estructurados, NLP para PHI contextual, modelos de transformadores para formas cruzadas y abreviadas — es el patrón identificado por la encuesta como el que logra tasas de fallo inferiores al 5% adecuadas para el cumplimiento de HIPAA Safe Harbor.

Fuentes:

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.