By · Last updated 2026-06-05

Volver al BlogTécnico

El Problema de Precisión del 22.7% de Presidio...

Un estudio de referencia de 2024 encontró que el reconocedor de nombres de personas de Presidio logra un 22.7% de precisión en documentos...

June 5, 20267 min de lectura
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

El problema de precisión del 22,7% de Presidio

Los falsos positivos en la detección de PII causan daños reales. Cuando el 77,3% de lo que tu herramienta señala como "nombres de personas" no son nombres reales, no estás protegiendo la privacidad. Estás destruyendo datos.

Un benchmark de 2024 probó el modelo NER por defecto de Microsoft Presidio en documentos empresariales. La prueba abarcó informes financieros, correspondencia con clientes, documentación de productos y tickets de soporte. El resultado: 22,7% de precisión en la detección de nombres.

Esa cifra es llamativa. De cada 100 elementos marcados, 23 son nombres individuales reales. Los otros 77 son falsos positivos — etiquetas de productos, términos de marcas o etiquetas de ciudades.

Tres de cada cuatro detecciones son incorrectas. No es un problema menor de calibración. Es una herramienta defectuosa para el procesamiento de documentos empresariales.

Por qué ocurre esto

Presidio usa el modelo en_core_web_lg de spaCy por defecto. Este modelo aprendió de textos periodísticos. En las noticias, la mayoría de los nombres propios son personas o lugares reales.

Los documentos empresariales son diferentes.

Etiquetas de productos que parecen nombres individuales. "Registros de envío del Apple iPhone 15 Pro" se marca como PERSON. Lo mismo ocurre con "Samsung Galaxy Tab" y "despliegue de Cisco Meraki."

Términos de empresas con partes similares a nombres. En "resultados de Johnson Controls," la palabra "Johnson" se marca como PERSON. "Cartera de Goldman Sachs" genera el mismo error.

Etiquetas de lugares que activan la detección de personas. "Proyecto Victoria Harbour" marca "Victoria" como PERSON. "Hub Santiago" marca "Santiago" de la misma manera.

El modelo carece del contexto para distinguir "Apple" (empresa) de "Apple Smith" (una persona). Esa brecha es la raíz de la mayoría de los falsos positivos. Los textos periodísticos lo entrenaron para tratar los nombres propios como personas o lugares. Los textos empresariales rompen esa regla constantemente.

El efecto aguas abajo

Una empresa de análisis de datos usó Presidio para limpiar encuestas de clientes antes de compartirlas. Una auditoría encontró cuatro problemas. Primero, el 40% de las encuestas tenía etiquetas de productos incorrectamente eliminadas. Segundo, las etiquetas de ciudades fueron borradas de cada respuesta. Tercero, las menciones de marcas fueron eliminadas del conjunto de análisis. Cuarto, el sentimiento sobre productos específicos no podía leerse.

El equipo de análisis recibió texto redactado con todas las referencias de productos eliminadas. La encuesta original mencionaba el iPhone Pro y el cargador Apple. Ese significado se había perdido.

La empresa no protegía mejor la privacidad. Estaba destruyendo datos sin obtener cumplimiento normativo. Presidio fue reemplazado después de la auditoría.

Consulta nuestra descripción general de cumplimiento para ver cómo la calidad de detección afecta tu posición regulatoria.

Un mejor enfoque: detección híbrida

El problema no es exclusivo de Presidio. El NER a nivel de tokens sin contexto siempre tendrá este problema. La solución es la detección contextual.

Por qué ayudan los transformers: Un modelo como XLM-RoBERTa lee la oración completa. "Apple anunció sus ganancias" → Apple es una empresa. "Apple Smith se unió al equipo" → Apple es un nombre de pila. El contexto te dice cuál es cuál.

Esto mejora la precisión manteniendo un alto recall. Ver la comparación a continuación.

EnfoquePrecisiónRecall
NER por defecto de Presidio22,7%~85%
Solo Regex~95%~40%
Híbrido (Regex + NLP + Transformer)~85%~80%

El enfoque híbrido alcanza el 85% de precisión. Eso significa una tasa de falsos positivos del 15%. Mucho mejor que el 77,3%. Para documentos empresariales, esta diferencia importa.

La pila híbrida tiene cuatro pasos:

  1. Capa Regex: Encuentra IDs estructurados — correos electrónicos, números de teléfono, SSNs, IBANs. Los formatos son fijos, los falsos positivos son raros. Esto se ejecuta primero.

  2. Capa NLP (spaCy): NER estándar para personas, empresas y lugares. Alto recall, menor precisión.

  3. Capa Transformer (XLM-RoBERTa): Puntúa de nuevo cada resultado NLP usando el contexto completo de la oración. "Apple" en un contexto de producto pierde su puntuación de entidad. "John" en un texto de queja la gana.

  4. Umbral de confianza: Solo los resultados por encima de una puntuación establecida pasan a la salida. Aumentar el umbral para casos de análisis. Reducirlo para la desidentificación HIPAA.

Resultados tras el cambio

La empresa de análisis cambió a detección híbrida. Los beneficios fueron claros. Los falsos positivos en etiquetas de productos bajaron del 40% al 3%. Los falsos positivos en etiquetas de ciudades cayeron a casi cero. El recall de identidades reales se mantuvo en ~82%, ligeramente por debajo del 85%, pero la precisión mejoró mucho.

Las encuestas volvieron a ser utilizables. "iPhone," "Apple," "Samsung" y "Chicago" permanecieron en el texto. Los nombres de clientes en contextos de quejas fueron correctamente anonimizados.

La detección híbrida requiere más cómputo. Para trabajos grandes, los tiempos de ejecución son algo más largos. Para la mayoría de los casos de uso empresariales, el aumento de precisión vale la pena. La empresa pudo realizar análisis de nuevo. Ese era el objetivo original de los datos de la encuesta.

Consulta nuestra descripción general de seguridad para más información sobre nuestro enfoque de detección.

Cuándo son aceptables las altas tasas de falsos positivos

Algunos casos favorecen el recall sobre la precisión.

HIPAA Safe Harbor: Perder un verdadero positivo es una infracción. Una tasa de falsos positivos del 10% es aceptable si nunca se pierde PHI real. La eliminación excesiva es preferible a la eliminación insuficiente.

Revisión legal: Perder un contacto privilegiado puede renunciar al privilegio abogado-cliente. Los falsos positivos requieren revisión pero no crean responsabilidad.

Análisis empresarial: La eliminación excesiva destruye datos sin beneficio de cumplimiento. La precisión importa más aquí. Usar un enfoque híbrido con un umbral de confianza alto. Esto mantiene las etiquetas de marcas y los términos de ciudades en la salida. Solo se eliminan los nombres de personas reales.

El equilibrio adecuado depende del caso de uso. Las herramientas que permiten configurar el umbral te dan control. Ningún valor predeterminado funciona para todos los contextos.

Nuestra FAQ responde preguntas frecuentes sobre umbrales y modos de detección.

Conclusión

Una tasa de precisión del 22,7% significa que 3 de cada 4 detecciones son incorrectas. Para documentos empresariales, eso hace que la salida sea inutilizable para el análisis. También da una falsa confianza sobre el cumplimiento normativo.

La detección híbrida resuelve esto. Combina regex, NLP y puntuación por transformer. Los datos siguen siendo útiles tras la anonimización. Se eliminan los nombres de personas reales. Las etiquetas de marcas, los términos de ciudades y los identificadores de productos permanecen.

Si dejaste Presidio por problemas de falsos positivos, este es el camino a seguir. No una nueva configuración del mismo modelo. Una arquitectura diferente diseñada para contextos de documentos empresariales.

Fuentes

Priva PII Benchmark 2024: Evaluación de precisión de Presidio. VERIFIED-EXTERNAL.

Microsoft Presidio: Entidades soportadas y arquitectura del modelo. VERIFIED-EXTERNAL.

spaCy: Datos de entrenamiento y limitaciones de en_core_web_lg. VERIFIED-EXTERNAL.

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.