El coste real de la detección PII «gratuita»
«Es gratis» no es un análisis de costes. Es un precio de licencia — un factor entre muchos.
Microsoft Presidio cuesta €0 descargarlo. El software es de código abierto. Pero ejecutarlo en producción en una aseguradora cuesta más de €13 000 en el primer año. Esa brecha es tiempo de ingeniería.
Lo que necesita un despliegue en producción
Preparar la herramienta para producción lleva 40–80 horas. Así se distribuye ese tiempo.
Configuración de Docker: 4–8 horas. La herramienta usa varios contenedores. Un servicio de análisis, un servicio de anonimización y un redactor de imágenes opcional. Hacer que se comuniquen entre sí es difícil. Los issues de GitHub muestran que es un punto de fallo habitual.
Configuración de Python: 2–4 horas. Las bibliotecas tienen reglas de versión estrictas. Los conflictos son frecuentes — sobre todo entre versiones de modelos spaCy y Python 3.8/3.9/3.10. GitHub muestra cientos de issues abiertos sobre este tema.
Descarga de modelos de idioma: 2–4 horas. Los modelos de spaCy van de 300 MB a 1,4 GB cada uno. Una instalación de cinco idiomas necesita entre 1,5 y 7 GB de almacenamiento. Los fallos de carga de modelos son de los problemas de soporte más comunes.
Reconocedores personalizados: 8–16 horas. El conjunto predeterminado cubre unos 40 tipos de entidades. La mayoría son identificadores de EE. UU. Los despliegues en la UE necesitan identificadores nacionales europeos. Los equipos sanitarios necesitan formatos de historial médico. Cada tipo requiere código Python, configuración YAML y pruebas.
Configuración de API: 4–8 horas. La configuración de producción incluye tiempos de espera, autenticación, límites de tasa y registros. La documentación oficial es escasa. La mayoría de los equipos encuentran respuestas en los hilos de issues de GitHub.
Registro de auditoría: 4–8 horas. El RGPD exige registros del tratamiento de datos. La herramienta no incluye registro de auditoría por defecto. Los equipos deben escribirlo como código propio.
Documentación del equipo: 4–8 horas.
Configuración inicial total: 28–52 horas a €100/hora = €2.800–5.200.
Costes anuales de mantenimiento
La herramienta publica actualizaciones 2–4 veces al año. Las versiones mayores han roto APIs. Mantenerse al día implica seguir los cambios, probar en staging y desplegar.
Las actualizaciones de modelos de spaCy añaden más trabajo. Las nuevas versiones deben volver a descargarse y verificar su precisión antes de pasar a producción.
Los conflictos de dependencias de Python vuelven con frecuencia. Una instalación limpia hoy puede romperse cuando llegue un parche de seguridad el mes que viene.
La monitorización es continua. Salud de contenedores, fugas de memoria y procedimientos de reinicio requieren atención regular. Los modelos de spaCy consumen mucha memoria.
Mantenimiento anual total: 60–120 horas a €100/hora = €6.000–12.000.
Un caso real
Un equipo de cumplimiento en una aseguradora quería procesar documentos de siniestros. Contaban con dos ingenieros de datos junior y ningún soporte DevOps.
Semana 1. Los dos contenedores principales no podían comunicarse. Tres días para resolver con ayuda de GitHub.
Semana 2. Los modelos no se cargaban en producción. La configuración de memoria era diferente del entorno de desarrollo. Dos días de diagnóstico, uno más para arreglarlo.
Semana 3. Una regla personalizada para números de la Seguridad Social del Reino Unido funcionó en pruebas pero generó falsos positivos en documentos reales. Dos días más de ajuste.
Semana 4. El proyecto fue escalado. Tres semanas de ingeniería consumidas. Aún no estaba en producción.
El equipo probó entonces anonym.legal. Primer documento procesado: 12 minutos tras el registro. La detección de números de la Seguridad Social del Reino Unido ya estaba incorporada. Sin configuración necesaria.
Pasaron al plan anonym.legal Professional a €180/año.
Comparativa TCO para el primer año:
- Ruta autoalojada — 40–80 horas más para terminar, luego €6.000–12.000/año de mantenimiento. Total: €10.000–20.000.
- anonym.legal Professional — €180/año. Tiempo de despliegue: ~12 minutos.
- Horas de ingeniería ahorradas: ~132/año a €100/hora = €13.200.
Eso es una diferencia de costes de 70x en el primer año.
Para equipos que también enfrentan problemas de falsos positivos, ver nuestro artículo sobre el problema de precisión de Presidio.
Cuándo tiene sentido el autoalojamiento
El SaaS gestionado gana para la mayoría de equipos. Pero el autoalojamiento encaja en algunos casos.
Soberanía de datos. Algunas normativas o contratos prohíben enviar datos fuera. Nuestra aplicación de escritorio (anonym.plus) funciona completamente sin conexión. Ningún dato sale del equipo. Misma precisión, sin necesidad de servidor.
Volumen muy alto. Millones de llamadas API al día pueden hacer que el coste por llamada supere el coste del servidor. A esa escala, tener la propia infraestructura tiene sentido económico.
Integración en producto. ¿Estás integrando la detección PII en tu propio producto y necesitas control total? El desarrollo personalizado en código abierto es adecuado aquí.
DevOps existente. Los equipos con un equipo de plataforma que ya gestiona muchos servicios tienen un coste marginal menor. La infraestructura ya es un coste hundido para ellos.
Para todos los demás — equipos de cumplimiento, startups, equipos sin DevOps — el SaaS gestionado es la elección clara. Consulta nuestra descripción general de seguridad y cumplimiento para ver cómo el procesamiento alojado cumple los requisitos empresariales.
Conclusión
Las herramientas de código abierto tienen costes que no aparecen en el precio de la licencia. Para este tipo de herramienta, el coste dominante es el tiempo de ingeniería. Configuración inicial: 40–80 horas. Mantenimiento anual: 60–120 horas. A tarifas normales, la ruta autoalojada cuesta entre 20 y 75 veces más que un servicio gestionado.
La pregunta correcta no es «¿cuánto cuesta el software?» Es «¿cuánto cuesta operarlo?» Para la mayoría de los equipos, la respuesta apunta claramente al SaaS gestionado.
Fuentes
Microsoft Presidio GitHub: Issues y documentación de configuración. VERIFIED-EXTERNAL.
Ploomber: Guía de despliegue de Presidio en producción. VERIFIED-EXTERNAL.
RGPD Artículo 32: Medidas técnicas para una seguridad adecuada. VERIFIED-EXTERNAL.