By · Last updated 2026-06-05

Volver al BlogTécnico

De 6 Semanas de Infierno DevOps a una Integración de...

Los equipos de SaaS de atención médica pasan 6 semanas en el despliegue de producción de Presidio autoalojado antes de cambiar a una API gestionada.

June 5, 20267 min de lectura
managed PII APIPresidio productionPHI anonymizationhealthcare SaaSbuild vs buy

De seis semanas de infierno DevOps a una integración en 3 días

Actualizado para 2026.

Seis semanas. Dos ingenieros. Cuatro intentos de despliegue fallidos. Un equipo de SaaS sanitario invirtió todo eso en una instalación de Presidio autoalojada. Luego cambiaron a una API gestionada. El cambio tomó 3 días.

La etiqueta "gratis" del software open source es tentadora. Lo mismo ocurre con la promesa de control total. Pero el coste real aparece en horas de ingeniería. No en tarifas de licencia.

Lo que la documentación de Presidio no cubre

La documentación de Presidio cubre bien la configuración local. Ejecutar dos contenedores Docker. Apuntar el anonimizador al analizador. Funciona en tu portátil.

La producción es otra historia.

Escalado: Presidio local corre como una instancia única. La producción necesita varias instancias detrás de un balanceador de carga, comprobaciones de salud y degradación controlada. La documentación de Presidio no da orientación sobre esto. Cada equipo lo resuelve por su cuenta.

Uso de memoria: Los modelos de spaCy se cargan en RAM por instancia. El modelo en_core_web_lg solo ocupa 741 MB. Bajo presión de memoria, el rendimiento cae. Luego el proceso falla con un error de falta de memoria. Presidio no tiene orientación integrada para esto.

Tiempos de espera: Los documentos grandes tardan más. El código de producción necesita tiempos de espera configurables, respuestas seguras en caso de timeout y lógica de reintento. Nada de esto está documentado en Presidio.

Fallos de carga de modelos: Con alta concurrencia, varios workers intentan cargar el mismo modelo de spaCy a la vez. Esto es una condición de carrera. El resultado son errores 500 aleatorios difíciles de reproducir. Los Issues de GitHub de Presidio documentan esto. La documentación principal no.

Registros de auditoría: El RGPD y el HIPAA exigen trazas de auditoría para el procesamiento de datos personales. Presidio no tiene registro integrado. Cada equipo debe escribir su propio middleware.

Versionado de API: La API de Presidio ha cambiado entre versiones. El código escrito para Presidio 2.0 puede necesitar actualizaciones para la versión 2.2 en adelante. El anclaje de versiones ayuda. Pero añade su propia carga de mantenimiento.

Las seis semanas de un equipo SaaS sanitario

Este equipo integró la anonimización de PHI en un pipeline de exportación de datos de investigación.

Semana 1: Siguieron la documentación de Presidio. El desarrollo local funcionó. El despliegue en Kubernetes falló. La inicialización de pods lanzó errores de carga de modelos. El equipo persiguió problemas de configuración de Kubernetes.

Semana 2: Se corrigió la configuración de Kubernetes. La carga de modelos funcionaba a veces. Bajo pruebas de carga, alrededor del 15 % de las solicitudes fallaban con timeouts de carga. Añadieron lógica de reintento.

Semana 3: La lógica de reintento ocultaba el problema raíz pero pasaba las pruebas de carga. Una revisión de cumplimiento solicitó registros de auditoría. El equipo escribió middleware de registro personalizado.

Semana 4: Los tipos de entidades sanitarias — números de historia clínica, identificadores de plan de salud — no estaban cubiertos por los valores predeterminados de Presidio. El equipo escribió dos reconocedores personalizados.

Semana 5: Pusieron en producción. Apareció una fuga de memoria. Los objetos de modelo de spaCy se acumulaban entre solicitudes. El equipo añadió un reinicio diario del pod como solución temporal.

Semana 6: La producción falló bajo el tráfico real. El reinicio diario causaba interrupciones del servicio. La causa raíz era clara: la fuga de memoria requería o un rediseño mayor de la aplicación o una herramienta diferente.

La revisión: El director de ingeniería hizo los cálculos. Seis semanas por dos ingenieros equivale a 12 semanas-ingeniero. El despliegue funcionaba pero era inestable. El mantenimiento continuo se estimó en 5 a 10 horas por semana.

El cambio: El equipo probó la API de anonym.legal. La detección de entidades PHI funcionó de inmediato. No se necesitaron reconocedores personalizados. Disponibilidad garantizada por SLA. Registro de auditoría incluido. La integración tomó 3 días usando el código cliente API existente.

La comparación de costes:

  • 12 semanas-ingeniero a precios del mercado estadounidense: 48.000 a 72.000 dólares
  • Mantenimiento anual estimado para autoalojamiento: 25.000 a 40.000 dólares
  • Plan Business de anonym.legal: 348 € al año (aproximadamente 385 dólares)

La API gestionada cuesta menos en su primera semana de lo que costó el build autoalojado en su primera hora.

Cuando los datos no pueden salir de tu red

Algunos equipos sanitarios no pueden enviar datos a ningún servicio externo. Las normas de air-gap o las políticas de soberanía de datos lo impiden.

Para estos casos, la aplicación de escritorio (anonym.plus) ofrece el mismo motor en una instalación local:

  • Mismo motor de detección: Presidio más XLM-RoBERTa
  • Sin llamadas a servicios externos
  • Procesamiento por lotes para notas clínicas y conjuntos de datos de investigación
  • Sin configuración más allá de la instalación
  • Gestión automática de modelos

Esto elimina la principal objeción al SaaS gestionado: "nuestros datos no pueden salir." Y conserva la simplicidad que hace valiosas las herramientas gestionadas.

Build vs. Buy: un marco sencillo

Elige una API gestionada cuando:

  • Tu equipo no tiene ingenieros de infraestructura dedicados
  • Necesitas entregar en días, no en semanas
  • La disponibilidad garantizada por SLA es un requisito
  • El servicio gestionado cubre tus tipos de entidades
  • Los registros de auditoría y los documentos de cumplimiento deben estar incluidos

Elige el autoalojamiento cuando:

  • Las regulaciones impiden que los datos salgan de tu red (comprueba primero la aplicación de escritorio)
  • Tu volumen de procesamiento hace el autoalojamiento más barato a escala
  • Necesitas una personalización profunda que la API no puede soportar
  • Tienes un equipo de plataforma que trata esto como uno de sus muchos servicios gestionados

Elige la aplicación de escritorio cuando:

  • Se requiere procesamiento sin conexión
  • Los datos de investigación médica no pueden salir de un entorno clínico
  • Los datos financieros tienen restricciones geográficas de procesamiento

Conclusión

Seis semanas de tiempo de ingeniería no son un fallo de Presidio. Es el coste esperado de ejecutar cualquier servicio NLP de nivel producción por cuenta propia. El escalado, los problemas de memoria, los fallos de carga de modelos, los registros de auditoría y el trabajo con entidades personalizadas se acumulan rápido.

Las APIs gestionadas absorben ese coste. Para la anonimización de datos personales — una necesidad de cumplimiento, no una característica del producto — la ruta gestionada casi siempre gana en coste total de propiedad.

Lee cómo la API de anonym.legal gestiona la detección de PHI. Consulta los detalles completos de cumplimiento en nuestra descripción de seguridad. Compara planes en nuestra página de precios.

Fuentes

  • Ploomber: Presidio Production Deployment Deep Dive — ploomber.io.
  • Microsoft Fabric Community: Presidio con PySpark — blog.fabric.microsoft.com.
  • Presidio GitHub: Problemas de despliegue en producción — github.com/microsoft/presidio/issues.

¿Listo para proteger sus datos?

Comience a anonimizar PII con más de 285 tipos de entidades en 48 idiomas.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.