By · Last updated 2026-06-05

Volver al BlogTécnico

Presidio es poderoso. También es un proyecto de...

Microsoft Presidio tiene miles de estrellas en GitHub y cientos de problemas abiertos.

June 5, 20266 min de lectura
Presidio setupPySpark integrationmanaged PresidioPython dependenciesPII setup complexity

Presidio: Herramienta Potente, Configuración Larga

Actualizado para 2026.

Microsoft Presidio es una herramienta sólida para la detección de DPI y la de-identificación. Pero es un gran proyecto de ingeniería. Ponerlo en producción requiere un esfuerzo real. La comunidad está de acuerdo en esto.

El problema de GitHub #237 es un buen ejemplo. Incluso los desarrolladores con experiencia se topan con conflictos de entorno. Encuentran errores al cargar modelos y errores de API. Pueden pasar días de depuración antes del primer ejecución exitosa.

Lo que muestran los datos de la comunidad

El repositorio de Presidio en GitHub tiene miles de estrellas. Eso muestra un fuerte interés. Pero la lista de problemas abiertos cuenta una historia diferente.

Problemas de entorno: Los conflictos de versiones de Python son comunes. También lo son las incompatibilidades de modelos spaCy y los errores de tiempo de ejecución de ONNX. Estos problemas afectan a desarrolladores que siguen la documentación al pie de la letra.

Errores al cargar modelos: Los modelos spaCy se descargan bien pero no cargan en algunos entornos. Los contenedores y las configuraciones con poca memoria son puntos de conflicto frecuentes. Resolverlos requiere un conocimiento profundo de los componentes internos de spaCy.

Errores de API en producción: El analizador funciona bien en desarrollo. Falla bajo carga de producción. Los problemas de threading y la presión de memoria de los modelos NLP son las causas principales.

Coste de integración: El blog de Ploomber sobre este framework cubre el panorama completo. Usa varios servicios — el analizador, el anonimizador y un redactor de imágenes opcional. Coordinarlos genera trabajo. La transferencia de datos entre servicios genera más.

El caso de Microsoft Fabric

La propia documentación de Microsoft Fabric muestra la brecha entre "disponible" y "funcionando."

Una entrada del blog de Fabric sobre PySpark lo indica claramente: la configuración "requiere gestionar dependencias externas y lógica personalizada." Los usuarios de Fabric eligieron una plataforma cloud gestionada para evitar ese tipo de trabajo. Pero añadir herramientas externas devuelve la complejidad.

Los pasos para la configuración de PySpark son:

  1. Instalar presidio-analyzer y presidio-anonymizer en los notebooks de Fabric.
  2. Descargar modelos spaCy en el entorno de Fabric.
  3. Escribir wrappers UDF de PySpark para el analizador y el anonimizador.
  4. Gestionar la serialización de modelos spaCy para su uso en los workers de Spark.
  5. Configurar la detección de idioma para conjuntos de datos multilingüe.

Cada paso tiene modos de fallo conocidos. Los equipos que siguen esta ruta suelen pasar una o dos semanas antes de procesar su primer documento.

Dos caminos: Autohospedado vs. Gestionado

El enfoque gestionado invierte el reto de configuración.

Camino autohospedado:

  1. Instalar Docker.
  2. Configurar docker-compose.yml.
  3. Descargar modelos spaCy.
  4. Depurar la red de contenedores.
  5. Configurar los endpoints de la API.
  6. Probar la detección de entidades.
  7. Corregir falsos positivos y negativos.
  8. Construir reconocedores personalizados para tipos de entidades no estándar.
  9. Añadir registro de auditoría.
  10. Ajustar para la carga de producción.

Tiempo hasta el primer documento de-identificado: tres a veintiún días.

Camino de servicio gestionado:

  1. Crear una cuenta.
  2. Subir un documento o llamar a la API.

Tiempo hasta el primer documento de-identificado: doce minutos.

Ambos caminos utilizan el mismo enfoque de detección. El camino gestionado funciona en infraestructura que mantiene otra persona.

Cuándo el autohospedaje tiene más sentido

El servicio gestionado no es adecuado para todos los casos.

Entrenamiento de modelos personalizados: Algunos casos requieren nuevos modelos NER. Los nombres de medicamentos propietarios o los códigos de productos internos son ejemplos. El autohospedaje te da las herramientas de entrenamiento.

Procesamiento nativo de Spark: Algunas tuberías necesitan la detección de DPI dentro del ejecutor de Spark. Una llamada a una API externa añade latencia que rompe ese patrón. El autohospedaje es la única opción aquí.

Control total: Algunas políticas de seguridad bloquean todas las llamadas a API externas en una tubería de datos. La aplicación de escritorio de anonym.legal funciona completamente sin conexión. El autohospedado es la opción completamente aislada.

Para la mayoría de los casos — procesamiento de documentos, flujos de trabajo de API y herramientas de conformidad — el servicio gestionado elimina el proyecto de infraestructura por completo.

Ejecutar ambos caminos a la vez

El nivel gratuito te da 200 créditos al mes. Es suficiente para probar documentos reales. Sin tarjeta de crédito. Sin compromiso.

Aquí hay un enfoque paralelo sencillo.

Semana 1: Configurar el analizador autohospedado en desarrollo. Ver qué tan compleja será la configuración de producción.

Día 1, en paralelo: Crear una cuenta de servicio gestionado. Pasar los mismos documentos de prueba por la API gestionada. Comparar los resultados.

Preguntas clave:

  • ¿Detecta el servicio gestionado los tipos que necesitas? Cubre más de 285 tipos de entidades. El build de código abierto cubre alrededor de 40 por defecto.
  • ¿Es la precisión suficientemente buena?
  • ¿Se adapta la API a tu patrón?
  • ¿Los planes se ajustan a tu volumen y presupuesto?

Si sí en todo: el servicio gestionado elimina el proyecto de infraestructura. Si no: las brechas que encuentras son razones reales para quedarse en el autohospedaje.

Descubre cómo otros equipos tomaron esta decisión en nuestros casos de uso. Revisa los detalles de salvaguardas en nuestra página de seguridad y conformidad. Encuentra respuestas a preguntas comunes en nuestras FAQ.

En resumen

Una configuración de tres semanas no es un fallo de la documentación ni del framework. Muestra lo que necesita la infraestructura NLP lista para producción. Los retos son reales. Requieren tiempo y habilidades para resolverlos.

Para muchos equipos, la de-identificación de DPI es un requisito de conformidad. No es una tarea central de ingeniería. El servicio gestionado ofrece la misma detección. Y lo hace sin el proyecto de infraestructura. Doce minutos desde el registro hasta el primer documento de-identificado mantiene el coste de evaluación muy bajo.

Fuentes

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.