El problema de precisión del 22,7% de Presidio

Los falsos positivos en la detección de PII causan daños reales. Cuando el 77,3% de lo que tu herramienta señala como "nombres de personas" no son nombres reales, no estás protegiendo la privacidad. Estás destruyendo datos.

Un benchmark de 2024 probó el modelo NER por defecto de Microsoft Presidio en documentos empresariales. La prueba abarcó informes financieros, correspondencia con clientes, documentación de productos y tickets de soporte. El resultado: 22,7% de precisión en la detección de nombres.

Esa cifra es llamativa. De cada 100 elementos marcados, 23 son nombres individuales reales. Los otros 77 son falsos positivos — etiquetas de productos, términos de marcas o etiquetas de ciudades.

Tres de cada cuatro detecciones son incorrectas. No es un problema menor de calibración. Es una herramienta defectuosa para el procesamiento de documentos empresariales.

Por qué ocurre esto

Presidio usa el modelo en_core_web_lg de spaCy por defecto. Este modelo aprendió de textos periodísticos. En las noticias, la mayoría de los nombres propios son personas o lugares reales.

Los documentos empresariales son diferentes.

Etiquetas de productos que parecen nombres individuales. "Registros de envío del Apple iPhone 15 Pro" se marca como PERSON. Lo mismo ocurre con "Samsung Galaxy Tab" y "despliegue de Cisco Meraki."

Términos de empresas con partes similares a nombres. En "resultados de Johnson Controls," la palabra "Johnson" se marca como PERSON. "Cartera de Goldman Sachs" genera el mismo error.

Etiquetas de lugares que activan la detección de personas. "Proyecto Victoria Harbour" marca "Victoria" como PERSON. "Hub Santiago" marca "Santiago" de la misma manera.

El modelo carece del contexto para distinguir "Apple" (empresa) de "Apple Smith" (una persona). Esa brecha es la raíz de la mayoría de los falsos positivos. Los textos periodísticos lo entrenaron para tratar los nombres propios como personas o lugares. Los textos empresariales rompen esa regla constantemente.

El efecto aguas abajo

Una empresa de análisis de datos usó Presidio para limpiar encuestas de clientes antes de compartirlas. Una auditoría encontró cuatro problemas. Primero, el 40% de las encuestas tenía etiquetas de productos incorrectamente eliminadas. Segundo, las etiquetas de ciudades fueron borradas de cada respuesta. Tercero, las menciones de marcas fueron eliminadas del conjunto de análisis. Cuarto, el sentimiento sobre productos específicos no podía leerse.

El equipo de análisis recibió texto redactado con todas las referencias de productos eliminadas. La encuesta original mencionaba el iPhone Pro y el cargador Apple. Ese significado se había perdido.

La empresa no protegía mejor la privacidad. Estaba destruyendo datos sin obtener cumplimiento normativo. Presidio fue reemplazado después de la auditoría.

Consulta nuestra descripción general de cumplimiento para ver cómo la calidad de detección afecta tu posición regulatoria.

Un mejor enfoque: detección híbrida

El problema no es exclusivo de Presidio. El NER a nivel de tokens sin contexto siempre tendrá este problema. La solución es la detección contextual.

Por qué ayudan los transformers: Un modelo como XLM-RoBERTa lee la oración completa. "Apple anunció sus ganancias" → Apple es una empresa. "Apple Smith se unió al equipo" → Apple es un nombre de pila. El contexto te dice cuál es cuál.

Esto mejora la precisión manteniendo un alto recall. Ver la comparación a continuación.

Enfoque	Precisión	Recall
NER por defecto de Presidio	22,7%	~85%
Solo Regex	~95%	~40%
Híbrido (Regex + NLP + Transformer)	~85%	~80%

El enfoque híbrido alcanza el 85% de precisión. Eso significa una tasa de falsos positivos del 15%. Mucho mejor que el 77,3%. Para documentos empresariales, esta diferencia importa.

La pila híbrida tiene cuatro pasos:

Capa Regex: Encuentra IDs estructurados — correos electrónicos, números de teléfono, SSNs, IBANs. Los formatos son fijos, los falsos positivos son raros. Esto se ejecuta primero.
Capa NLP (spaCy): NER estándar para personas, empresas y lugares. Alto recall, menor precisión.
Capa Transformer (XLM-RoBERTa): Puntúa de nuevo cada resultado NLP usando el contexto completo de la oración. "Apple" en un contexto de producto pierde su puntuación de entidad. "John" en un texto de queja la gana.
Umbral de confianza: Solo los resultados por encima de una puntuación establecida pasan a la salida. Aumentar el umbral para casos de análisis. Reducirlo para la desidentificación HIPAA.

Resultados tras el cambio

La empresa de análisis cambió a detección híbrida. Los beneficios fueron claros. Los falsos positivos en etiquetas de productos bajaron del 40% al 3%. Los falsos positivos en etiquetas de ciudades cayeron a casi cero. El recall de identidades reales se mantuvo en ~82%, ligeramente por debajo del 85%, pero la precisión mejoró mucho.

Las encuestas volvieron a ser utilizables. "iPhone," "Apple," "Samsung" y "Chicago" permanecieron en el texto. Los nombres de clientes en contextos de quejas fueron correctamente anonimizados.

La detección híbrida requiere más cómputo. Para trabajos grandes, los tiempos de ejecución son algo más largos. Para la mayoría de los casos de uso empresariales, el aumento de precisión vale la pena. La empresa pudo realizar análisis de nuevo. Ese era el objetivo original de los datos de la encuesta.

Consulta nuestra descripción general de seguridad para más información sobre nuestro enfoque de detección.

Cuándo son aceptables las altas tasas de falsos positivos

Algunos casos favorecen el recall sobre la precisión.

HIPAA Safe Harbor: Perder un verdadero positivo es una infracción. Una tasa de falsos positivos del 10% es aceptable si nunca se pierde PHI real. La eliminación excesiva es preferible a la eliminación insuficiente.

Revisión legal: Perder un contacto privilegiado puede renunciar al privilegio abogado-cliente. Los falsos positivos requieren revisión pero no crean responsabilidad.

Análisis empresarial: La eliminación excesiva destruye datos sin beneficio de cumplimiento. La precisión importa más aquí. Usar un enfoque híbrido con un umbral de confianza alto. Esto mantiene las etiquetas de marcas y los términos de ciudades en la salida. Solo se eliminan los nombres de personas reales.

El equilibrio adecuado depende del caso de uso. Las herramientas que permiten configurar el umbral te dan control. Ningún valor predeterminado funciona para todos los contextos.

Nuestra FAQ responde preguntas frecuentes sobre umbrales y modos de detección.

Conclusión

Una tasa de precisión del 22,7% significa que 3 de cada 4 detecciones son incorrectas. Para documentos empresariales, eso hace que la salida sea inutilizable para el análisis. También da una falsa confianza sobre el cumplimiento normativo.

La detección híbrida resuelve esto. Combina regex, NLP y puntuación por transformer. Los datos siguen siendo útiles tras la anonimización. Se eliminan los nombres de personas reales. Las etiquetas de marcas, los términos de ciudades y los identificadores de productos permanecen.

Si dejaste Presidio por problemas de falsos positivos, este es el camino a seguir. No una nueva configuración del mismo modelo. Una arquitectura diferente diseñada para contextos de documentos empresariales.

Fuentes

Priva PII Benchmark 2024: Evaluación de precisión de Presidio. VERIFIED-EXTERNAL.

Microsoft Presidio: Entidades soportadas y arquitectura del modelo. VERIFIED-EXTERNAL.

spaCy: Datos de entrenamiento y limitaciones de en_core_web_lg. VERIFIED-EXTERNAL.

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

Iniciar Prueba Gratuita Ver Características

El Problema de Precisión del 22.7% de Presidio...