By · Last updated 2026-04-03

Volver al BlogTécnico

El Impuesto de Falsos Positivos: Por Qué el Problema...

El problema de falsos positivos sistemáticos se documenta en el problema de GitHub de Presidio #1071.

April 3, 20268 min de lectura
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

El Costo de los Falsos Positivos en Herramientas de Detección de DCP

Actualizado para 2026

La mayoría de las herramientas de DCP se evalúan por la exhaustividad. La exhaustividad mide qué parte de las DCP reales detecta la herramienta. Pero la precisión es igual de importante. Mide qué parte de las alertas de la herramienta corresponde a DCP reales.

Una precisión baja es costosa. Un sistema con 95 % de exhaustividad y 22,7 % de precisión detecta la mayoría de las DCP. Sin embargo, por cada entidad DCP real marcada, también genera 3,4 alertas incorrectas. En un conjunto de datos con 10 000 entidades DCP reales, ese sistema emite aproximadamente 44 000 alertas. Alrededor de 34 000 son incorrectas. Cada una consume tiempo de revisión o provoca una redacción excesiva.

Este es el costo de los falsos positivos. Es la carga que paga cualquier equipo al operar un sistema de DCP de alta exhaustividad y baja precisión a escala de producción. El costo directo es el tiempo de los revisores. El costo indirecto es peor: los documentos excesivamente redactados ocultan datos útiles, ralentizan el trabajo y erosionan la confianza en la herramienta.

Lo que muestra el issue #1071 de Presidio

La discusión #1071 en GitHub de Microsoft Presidio (2024) documenta un patrón específico. Los reconocedores TFN (Tax File Number) y PCI usan validación por suma de comprobación. Los números que pasan la suma de comprobación reciben una puntuación de 1,0 — confianza máxima. No se requiere contexto de DCP.

La causa raíz: la verificación de palabras contextuales se ejecuta después del paso de suma de comprobación, no antes. Un número que pasa la suma de comprobación obtiene la puntuación máxima sin importar el texto circundante. En hojas de cálculo financieras, conjuntos de datos científicos o archivos de registro, esto inunda la salida con alertas incorrectas. El filtrado por umbral de puntuación no puede corregirlo. Las puntuaciones ya están en el máximo.

Un segundo patrón aparece en el issue #999 de Presidio. La segmentación de palabras en alemán falla en los sustantivos compuestos. Palabras como Bundesbehörde (autoridad federal) pueden segmentarse incorrectamente y etiquetarse como nombres propios. Esto añade ruido en cualquier documento en alemán.

El problema del 22,7 % de precisión

Alvaro et al. (2024) probaron Presidio con la configuración predeterminada en conjuntos de datos empresariales multilingües. Encontraron 22,7 % de precisión. En documentos reales, menos de una de cada cuatro alertas de Presidio corresponde a una entidad DCP real. Esto coincide con lo que reportan los profesionales. Una herramienta optimizada solo para exhaustividad genera demasiado ruido para su uso en producción.

Un estudio DICOM de 2024 mostró que elevar el score_threshold a 0,7 aún dejaba alertas incorrectas en 38 de 39 imágenes médicas. Un umbral que elimina el ruido en un tipo de documento crea detecciones perdidas en otro.

Este no es un problema exclusivo de Presidio. Cualquier umbral fijo impone un compromiso. Un umbral alto reduce el ruido pero aumenta las detecciones perdidas. Un umbral bajo aumenta la exhaustividad pero infla la cola de alertas.

Puntuación con conciencia contextual

La solución es la puntuación de confianza con conciencia contextual. En lugar de puntuar solo en base al patrón detectado, el sistema aumenta la confianza cuando aparecen palabras contextuales cerca de la coincidencia. También reduce la puntuación cuando el contexto está ausente.

Para la detección TFN: palabras como "tax file number," "TFN" o "Australian tax" cerca de un número aumentan su puntuación. Un número que pasa la suma de comprobación pero no tiene palabras contextuales cercanas recibe una puntuación por debajo del umbral de revisión. La alerta incorrecta queda suprimida.

Para el ruido interlingüístico: los tipos de entidades vinculados a países específicos pueden limitarse a documentos en el idioma correspondiente. Un detector TFN limitado a textos en inglés e inglés australiano elimina el ruido. Aplicarlo en contenido alemán sin esta restricción es la fuente del problema.

La tercera capa en un sistema híbrido es un modelo transformer. Lee la ventana de contexto completa alrededor de cada candidato. Distingue "John Smith, Patient ID 12345" de un código de producto que coincide con un patrón de nombre. El contexto resuelve la ambigüedad que las expresiones regulares y las sumas de comprobación no pueden resolver.

Consulte cómo el motor de detección de tres niveles gestiona la precisión a escala. La guía de detección DCP multilingüe explica cómo el ruido interlingüístico afecta el cumplimiento del RGPD.

Pasos prácticos

Antes de implementar cualquier herramienta de DCP, mida su precisión — no solo su exhaustividad.

Ejecute la herramienta en un conjunto de documentos con DCP conocidas y no-DCP conocidas. Cuente las alertas en ambos grupos. Calcule true_positives / (true_positives + false_positives). Este número revela la carga de revisión antes de comprometerse con un despliegue.

Para equipos que ya usan Presidio, el análisis de distribución de puntuaciones es un camino rápido. Exporte una muestra de detecciones con sus puntuaciones de confianza. Cuente cuántas están por debajo de 0,6, 0,7 y 0,8. Una gran proporción de alertas de alta puntuación en texto limpio indica un problema de contexto, no de umbral. La vista general de cumplimiento de seguridad explica cómo documentar este análisis en una EIPD.

Fuentes

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.