By · Last updated 2026-03-23

Volver al BlogTécnico

El Problema del Falso Positivo: Por Qué la Redacción...

Un estudio de referencia de 2024 encontró que Presidio generó 13,536 detecciones de nombres falsos positivos en 4,434 muestras...

March 23, 20268 min de lectura
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

title: "Falsos positivos de Presidio: lo que cuestan en entornos jurídicos y de salud" description: "Un estudio de 2024 encontró que Presidio generó 13.536 falsos positivos en detección de nombres en 4.434 muestras — marcando pronombres, nombres de barcos y países como nombres de personas. Aquí están los costes reales." category: technical publishedAt: 2026-03-23 tags:

  • tasa de falsos positivos de Presidio
  • precisión en la detección de PII
  • coste de redacción automatizada
  • revisión de documentos legales
  • detección híbrida de PII readingTime: 8

Actualizado para 2026

El problema de precisión del 22,7 %

Un estudio de 2024 probó Microsoft Presidio en archivos de negocios. Presidio es una herramienta PII de código abierto. Los equipos legales y las organizaciones de salud la usan ampliamente.

El estudio midió con qué frecuencia Presidio acertaba. De todos los elementos marcados como nombres de personas, ¿cuántos eran realmente nombres de personas?

La respuesta fue 22,7 %. Aproximadamente 77 de cada 100 marcas eran incorrectas. El estudio contabilizó 13.536 marcas falsas en 4.434 archivos de muestra.

Los errores no eran aleatorios. Seguían patrones claros:

  • Pronombres marcados como personas ("I" al inicio de una oración)
  • Nombres de barcos marcados como personas ("ASL Scorpio")
  • Nombres de empresas marcados como personas ("Deloitte & Touche")
  • Nombres de países marcados como personas ("Argentina", "Singapur")

Ninguno de estos son casos extremos raros. Aparecen siempre que un modelo NLP general se enfrenta a texto especializado. El modelo no fue diseñado para distinguirlos.

Lo que cuestan las marcas falsas

En el trabajo jurídico y de salud, cada marca requiere una respuesta. Los equipos tienen tres opciones. Las tres tienen costes reales.

Opción 1: una persona revisa cada marca. El tiempo de abogados y expertos cuesta entre 200 y 800 dólares por hora. Con una precisión del 22,7 %, el volumen es enorme. Esto no es viable a gran escala. Consulte eDiscovery PII Automation and Legal Review Cost Reduction para ver cómo crecen los costes de revisión.

Opción 2: omitir la revisión y confiar en el resultado. Esto también es arriesgado. Cuando el 77 % de los elementos "redactados" no son sensibles, se crea riesgo legal. Los tribunales han sancionado a abogados por redacción excesiva. Ver eDiscovery Over-Redaction Sanctions para casos documentados.

Opción 3: subir el umbral de puntuación. Presidio permite definir un score_threshold para eliminar marcas débiles. Un estudio DICOM de 2024 lo probó con 0,7 — un umbral bastante alto. El resultado: 38 de 39 imágenes DICOM seguían teniendo marcas falsas. Los umbrales ayudan. No resuelven la causa raíz.

Por qué el NLP general falla aquí

La brecha de precisión de Presidio se debe a un desajuste entre los datos de entrenamiento y el uso real.

Los archivos legales están llenos de términos con mayúsculas. Nombres de casos, títulos de leyes y códigos de anexos se parecen a datos personales para un modelo general. Los marca. La mayoría no son datos personales.

Los archivos de salud añaden nombres de medicamentos, códigos de dispositivos y abreviaturas clínicas. "Pt." significa Paciente. "Dr." significa Doctor. Estos elementos interfieren con la detección de entidades de formas difíciles de predecir.

Los archivos financieros tienen códigos de productos, cadenas de entidades e IDs de cuentas que comparten patrones superficiales con registros personales.

Ajustar un modelo con datos del dominio ayuda. Pero requiere tiempo y esfuerzo para construir y mantener.

Cómo la detección híbrida resuelve esto

El problema de las marcas falsas tiene una solución clara. Dividir el trabajo por tipo de datos.

Reglas de patrones para datos estructurados. Números de seguridad social, números de teléfono, direcciones de correo electrónico y formatos de ID siguen reglas fijas. Una cadena o bien encaja en el patrón y pasa la prueba de dígito de control — o no. Cero marcas falsas para conjuntos de reglas válidos.

Modelos de lenguaje para texto libre. Nombres y apellidos, etiquetas de empresas y ubicaciones en prosa no tienen estructura rígida. El NLP los encuentra cuando las reglas no pueden. Los puntajes de confianza y las verificaciones de contexto reducen la tasa de marcas falsas.

Configuración de puntuación por tipo para control fino. Los equipos legales que no pueden arriesgar una redacción excesiva establecen umbrales altos. Los equipos de investigación que necesitan alta recuperación los establecen más bajos. Ver Binary PII Detection and Confidence Scoring for Compliance para cómo funcionan los niveles de puntuación en la práctica.

El resultado: muchos menos errores que los valores predeterminados de Presidio. La recuperación sigue siendo sólida donde las reglas solas perderían demasiado.

Para equipos legales y de salud, la pregunta clave no es si existen marcas falsas. Siempre existen en sistemas NLP. La pregunta es si la herramienta permite configurar, medir y documentar el equilibrio.

Fuentes

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.