Volver al BlogTécnico

El Impuesto de Falsos Positivos: Por Qué el Problema...

El problema de falsos positivos sistemáticos se documenta en el problema de GitHub de Presidio #1071.

April 3, 20268 min de lectura
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

El Impuesto de Cumplimiento Invisible

Las herramientas de detección de PII se evalúan típicamente en función de la recuperación: ¿qué porcentaje de PII real capturó la herramienta? Pero la precisión — ¿qué porcentaje de las detecciones de la herramienta son PII real? — determina el costo operativo de usar la herramienta.

Un sistema con 95% de recuperación y 22.7% de precisión captura el 95% de la PII real, pero por cada entidad de PII real detectada, señala 3.4 falsos positivos. En un conjunto de datos que contiene 10,000 entidades de PII reales, este sistema genera 10,000 / 0.227 ≈ 44,000 detecciones totales, de las cuales 34,000 son falsos positivos que requieren revisión manual o causan sobre-redacción.

Este es el "impuesto de falsos positivos": el costo operativo impuesto a cualquier organización que intenta usar un sistema de detección de PII de alta recuperación y baja precisión a escala de producción. El impuesto de falsos positivos tiene costos directos — tiempo del revisor manual — y costos indirectos: los documentos sobre-redactados oscurecen información relevante, ralentizan los flujos de trabajo y reducen la confianza en el sistema automatizado.

Lo Que Documenta el Problema de Presidio #1071

La discusión de GitHub de Microsoft Presidio #1071 (2024) documenta un patrón de falsos positivos específico y sistemático. Los reconocedores de TFN (Número de Archivo Fiscal) y PCI con validación de suma de verificación producen puntajes de confianza de 1.0 — máxima confianza — para números que no son PII que pasan el algoritmo de suma de verificación.

El problema de diseño: la verificación de palabras de contexto (verificando que palabras como "número de archivo fiscal" o "TFN" aparezcan cerca de la entidad detectada) se aplica después del paso de suma de verificación en lugar de antes. Los números que pasan la suma de verificación obtienen un puntaje de 1.0 independientemente del contexto. En documentos que contienen datos numéricos — hojas de cálculo financieras, conjuntos de datos científicos, archivos de registro — esto produce una inundación de falsos positivos que no pueden ser filtrados solo por el umbral de puntaje.

Un patrón separado de la comunidad de Presidio (problema de GitHub #999): la segmentación de palabras en alemán crea falsos positivos para entidades de nombre y ubicación. Compuestos alemanes como "Bundesbehörde" (autoridad federal) o términos comunes en alemán pueden ser segmentados incorrectamente y detectados como nombres personales.

El Problema de Precisión del 22.7%

Alvaro et al. (2024) evaluaron la configuración predeterminada de Presidio en conjuntos de datos empresariales de múltiples idiomas y encontraron 22.7% de precisión — lo que significa que en documentos empresariales reales, menos de 1 de cada 4 detecciones de Presidio corresponde a PII real. Esta cifra es consistente con la experiencia de campo de los profesionales: Presidio ajustado para recuperación produce ruido inutilizable en producción.

Un estudio de 2024 que examinó los metadatos de imágenes médicas DICOM encontró que incluso con score_threshold=0.7, 38 de 39 imágenes DICOM aún tenían entidades de falsos positivos. El umbral que elimina falsos positivos para un tipo de documento crea falsos negativos para otro.

El problema de precisión no es exclusivo de Presidio — refleja la dificultad inherente de construir un detector de PII de alta recuperación que también logre alta precisión a través de diversos tipos de documentos, idiomas y formatos de datos. El desafío es que cualquier umbral fijo representa un compromiso: un umbral alto reduce los falsos positivos pero aumenta los falsos negativos; un umbral bajo aumenta la recuperación pero infla los falsos positivos.

La Solución Consciente del Contexto

La alternativa al ajuste de umbral es la puntuación de confianza consciente del contexto. En lugar de asignar confianza basándose únicamente en la coincidencia del patrón de la entidad, la puntuación consciente del contexto aumenta la confianza cuando las palabras de contexto aparecen cerca de la coincidencia y suprime los falsos positivos cuando el contexto está ausente.

Para la detección de TFN: se aumenta el puntaje cuando "número de archivo fiscal", "TFN" o "impuesto australiano" aparece dentro de una ventana configurable. Un número que pasa la suma de verificación de TFN sin palabras de contexto cercanas recibe un puntaje de confianza reducido que cae por debajo del umbral de revisión.

Para los falsos positivos multilingües: los tipos de entidades que son específicos de ciertos idiomas (ID fiscal alemán, NIR francés, TFN australiano) pueden ser limitados a documentos detectados como ese idioma. Un detector de TFN aplicado solo a documentos en inglés y australiano-inglés elimina los falsos positivos sistemáticos que ocurren cuando el mismo detector se ejecuta en documentos alemanes.

El tercer nivel de detección híbrida — modelos contextuales basados en transformadores — añade otra capa: el modelo evalúa el contexto circundante completo para distinguir un nombre personal genuino ("John Smith, ID de Paciente 12345") de un falso positivo (un identificador de producto que coincide con un patrón de nombre).

Fuentes:

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.