By · Last updated 2026-06-05

Volver al BlogTécnico

El Costo Real de la Detección de PII de Código...

La autoalojamiento de Presidio requiere de 40-80 horas de configuración inicial y 5-10 horas/mes de mantenimiento continuo.

June 5, 20267 min de lectura
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

El coste real de la detección PII «gratuita»

«Es gratis» no es un análisis de costes. Es un precio de licencia — un factor entre muchos.

Microsoft Presidio cuesta €0 descargarlo. El software es de código abierto. Pero ejecutarlo en producción en una aseguradora cuesta más de €13 000 en el primer año. Esa brecha es tiempo de ingeniería.

Lo que necesita un despliegue en producción

Preparar la herramienta para producción lleva 40–80 horas. Así se distribuye ese tiempo.

Configuración de Docker: 4–8 horas. La herramienta usa varios contenedores. Un servicio de análisis, un servicio de anonimización y un redactor de imágenes opcional. Hacer que se comuniquen entre sí es difícil. Los issues de GitHub muestran que es un punto de fallo habitual.

Configuración de Python: 2–4 horas. Las bibliotecas tienen reglas de versión estrictas. Los conflictos son frecuentes — sobre todo entre versiones de modelos spaCy y Python 3.8/3.9/3.10. GitHub muestra cientos de issues abiertos sobre este tema.

Descarga de modelos de idioma: 2–4 horas. Los modelos de spaCy van de 300 MB a 1,4 GB cada uno. Una instalación de cinco idiomas necesita entre 1,5 y 7 GB de almacenamiento. Los fallos de carga de modelos son de los problemas de soporte más comunes.

Reconocedores personalizados: 8–16 horas. El conjunto predeterminado cubre unos 40 tipos de entidades. La mayoría son identificadores de EE. UU. Los despliegues en la UE necesitan identificadores nacionales europeos. Los equipos sanitarios necesitan formatos de historial médico. Cada tipo requiere código Python, configuración YAML y pruebas.

Configuración de API: 4–8 horas. La configuración de producción incluye tiempos de espera, autenticación, límites de tasa y registros. La documentación oficial es escasa. La mayoría de los equipos encuentran respuestas en los hilos de issues de GitHub.

Registro de auditoría: 4–8 horas. El RGPD exige registros del tratamiento de datos. La herramienta no incluye registro de auditoría por defecto. Los equipos deben escribirlo como código propio.

Documentación del equipo: 4–8 horas.

Configuración inicial total: 28–52 horas a €100/hora = €2.800–5.200.

Costes anuales de mantenimiento

La herramienta publica actualizaciones 2–4 veces al año. Las versiones mayores han roto APIs. Mantenerse al día implica seguir los cambios, probar en staging y desplegar.

Las actualizaciones de modelos de spaCy añaden más trabajo. Las nuevas versiones deben volver a descargarse y verificar su precisión antes de pasar a producción.

Los conflictos de dependencias de Python vuelven con frecuencia. Una instalación limpia hoy puede romperse cuando llegue un parche de seguridad el mes que viene.

La monitorización es continua. Salud de contenedores, fugas de memoria y procedimientos de reinicio requieren atención regular. Los modelos de spaCy consumen mucha memoria.

Mantenimiento anual total: 60–120 horas a €100/hora = €6.000–12.000.

Un caso real

Un equipo de cumplimiento en una aseguradora quería procesar documentos de siniestros. Contaban con dos ingenieros de datos junior y ningún soporte DevOps.

Semana 1. Los dos contenedores principales no podían comunicarse. Tres días para resolver con ayuda de GitHub.

Semana 2. Los modelos no se cargaban en producción. La configuración de memoria era diferente del entorno de desarrollo. Dos días de diagnóstico, uno más para arreglarlo.

Semana 3. Una regla personalizada para números de la Seguridad Social del Reino Unido funcionó en pruebas pero generó falsos positivos en documentos reales. Dos días más de ajuste.

Semana 4. El proyecto fue escalado. Tres semanas de ingeniería consumidas. Aún no estaba en producción.

El equipo probó entonces anonym.legal. Primer documento procesado: 12 minutos tras el registro. La detección de números de la Seguridad Social del Reino Unido ya estaba incorporada. Sin configuración necesaria.

Pasaron al plan anonym.legal Professional a €180/año.

Comparativa TCO para el primer año:

  • Ruta autoalojada — 40–80 horas más para terminar, luego €6.000–12.000/año de mantenimiento. Total: €10.000–20.000.
  • anonym.legal Professional — €180/año. Tiempo de despliegue: ~12 minutos.
  • Horas de ingeniería ahorradas: ~132/año a €100/hora = €13.200.

Eso es una diferencia de costes de 70x en el primer año.

Para equipos que también enfrentan problemas de falsos positivos, ver nuestro artículo sobre el problema de precisión de Presidio.

Cuándo tiene sentido el autoalojamiento

El SaaS gestionado gana para la mayoría de equipos. Pero el autoalojamiento encaja en algunos casos.

Soberanía de datos. Algunas normativas o contratos prohíben enviar datos fuera. Nuestra aplicación de escritorio (anonym.plus) funciona completamente sin conexión. Ningún dato sale del equipo. Misma precisión, sin necesidad de servidor.

Volumen muy alto. Millones de llamadas API al día pueden hacer que el coste por llamada supere el coste del servidor. A esa escala, tener la propia infraestructura tiene sentido económico.

Integración en producto. ¿Estás integrando la detección PII en tu propio producto y necesitas control total? El desarrollo personalizado en código abierto es adecuado aquí.

DevOps existente. Los equipos con un equipo de plataforma que ya gestiona muchos servicios tienen un coste marginal menor. La infraestructura ya es un coste hundido para ellos.

Para todos los demás — equipos de cumplimiento, startups, equipos sin DevOps — el SaaS gestionado es la elección clara. Consulta nuestra descripción general de seguridad y cumplimiento para ver cómo el procesamiento alojado cumple los requisitos empresariales.

Conclusión

Las herramientas de código abierto tienen costes que no aparecen en el precio de la licencia. Para este tipo de herramienta, el coste dominante es el tiempo de ingeniería. Configuración inicial: 40–80 horas. Mantenimiento anual: 60–120 horas. A tarifas normales, la ruta autoalojada cuesta entre 20 y 75 veces más que un servicio gestionado.

La pregunta correcta no es «¿cuánto cuesta el software?» Es «¿cuánto cuesta operarlo?» Para la mayoría de los equipos, la respuesta apunta claramente al SaaS gestionado.

Fuentes

Microsoft Presidio GitHub: Issues y documentación de configuración. VERIFIED-EXTERNAL.

Ploomber: Guía de despliegue de Presidio en producción. VERIFIED-EXTERNAL.

RGPD Artículo 32: Medidas técnicas para una seguridad adecuada. VERIFIED-EXTERNAL.

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.