El problema del 50 % de omisiones
Un estudio de 2025 (arXiv:2509.14464) probó herramientas LLM en registros clínicos. Los resultados fueron malos. Estas herramientas omitieron más del 50 % de las PHI clínicas en documentos multilingües. La causa es simple. Los LLM están diseñados para generar texto. No están diseñados para la detección de alta cobertura que exige HIPAA.
HIPAA Safe Harbor lista 18 tipos de identificadores protegidos. Nombres, fechas, números de teléfono, SSN, MRN, identificadores de planes de salud, identificadores de dispositivos y direcciones IP. Cada uno requiere su propia lógica de detección.
Las notas clínicas lo hacen más difícil. Tomemos este ejemplo: "Pt. John D., DOB 4/12/67, MRN 1234567, ingresado el 03/15/24, Dr. Smith ordenó ECG." Una sola oración. Cinco identificadores protegidos. La mayoría usa formas abreviadas. Un modelo diseñado para el significado clínico suele fallar en la tarea de detección.
Lo que los LLM omiten y por qué
Las herramientas LLM fallan en los registros clínicos de maneras predecibles.
Identificadores abreviados: Las notas clínicas usan taquigrafía. DOB, MRN y Pt. son formas comunes. Un modelo orientado al significado clínico puede no marcar "Pt. John D." como nombre. La extracción de datos sensibles necesita un objetivo diferente.
Fechas dependientes del contexto: No todas las fechas representan el mismo riesgo. "Edad 67" es un marcador indirecto. "DOB 4/12/67" es un identificador protegido directo. "03/15/24" como fecha de ingreso también está protegida. La coincidencia de patrones sola no es suficiente.
Formatos no estadounidenses: Cyberhaven (T4 2025) encontró que el 34,8 % de todas las entradas de ChatGPT contienen datos sensibles, incluidos PII multilingües. En salud, esto incluye identificadores de registros no estadounidenses, formatos de fechas regionales y tipos de ID de salud locales. Las herramientas entrenadas en EE. UU. los omiten sistemáticamente.
Identificadores hospitalarios personalizados: Los hospitales usan sus propios formatos de MRN, identificadores de personal y códigos de sitio. Estos no aparecen en los conjuntos de entrenamiento NER estándar. Una herramienta sin soporte de entidades personalizadas no los encontrará.
El riesgo en conjuntos de datos de investigación
Un hospital que construye un conjunto de datos de investigación con 500.000 notas enfrenta un problema real de cumplimiento. HIPAA exige un estándar de "muy bajo riesgo" para los datos anonimizados. Una herramienta que omite la mitad de todos los identificadores protegidos no puede cumplir ese estándar.
Los archivos de investigación no son datos limpios. Las notas abarcan muchos departamentos, períodos de tiempo y a veces idiomas. Una herramienta que funciona en datos de facturación puede fallar en notas narrativas. Los datos sensibles en texto libre no tienen etiqueta de campo.
La aprobación del IRB añade más exigencias. Las instituciones deben mostrar el método usado, los tipos de identificadores eliminados y las verificaciones realizadas. Una herramienta que omite la mitad de todos los registros no puede cumplir esas exigencias.
Consulte nuestro resumen de cumplimiento y prácticas de seguridad para saber cómo anonym.legal apoya los flujos de trabajo HIPAA.
La solución de tres capas
El estudio de 2025 encontró un patrón claro. Las herramientas con las tasas de omisión más bajas usaron tres capas de detección.
Capa uno — regex: Encuentra identificadores estructurados. SSN, MRN, números de teléfono, identificadores de planes de salud. Confiable en formatos fijos.
Capa dos — NER: Usa modelos transformadores. Encuentra nombres, fechas y datos sensibles en texto narrativo. Funciona donde el regex no puede.
Capa tres — entidades personalizadas: Maneja formas específicas del sitio. Patrones MRN propietarios, identificadores de personal, códigos de instalación. Ningún modelo estándar cubre estos.
Las herramientas de ML puro se degradan con formas abreviadas y texto no inglés. Las herramientas de regex puro omiten datos sensibles sin etiqueta de campo. Ninguna por sí sola es suficiente.
Solo el diseño de tres capas alcanzó tasas de omisión por debajo del 5 % en el estudio. Ese es el umbral para el cumplimiento de HIPAA Safe Harbor.
Consulte nuestra guía sobre anonimización HIPAA Safe Harbor para investigación para los próximos pasos.