By · Last updated 2026-06-05

Tornar al BlogTècnic

De 6 setmanes a 3 dies: configuracio de IIP gestionada

Els equips de SaaS sanitari passen 6 setmanes en el desplegament en produccio de Presidio allotjat localment abans de canviar a l'API gestionada. L'API gestionada substitueix tot el desplegament.

June 5, 20267 min llegit
managed PII APIPresidio productionPHI anonymizationhealthcare SaaSbuild vs buy

De sis setmanes de patiments amb DevOps a una integracio de 3 dies

Actualitzat per al 2026.

Sis setmanes. Dos enginyers. Quatre intents de desplegament fallits. Un equip de SaaS sanitari va gastar tot aixo en una configuracio de Presidio allotjada localment. Despres van canviar a una API gestionada. El canvi va trigar 3 dies.

L'etiqueta "gratuit" del programari de codi obert es temptadora. Tambe ho es la promesa de control total. Pero el cost real apareix en hores d'enginyeria. No en tarifes de llicencia.

Que no cobreix la documentacio de Presidio

La documentacio de Presidio gestiona be la configuracio local. Executeu dos contenidors Docker. Apunteu l'anonimitzador cap a l'analitzador. Funciona al vostre ordinador portatil.

La produccio es una altra historia.

Escalat: El Presidio local s'executa com una sola instancia. La produccio necessita multiples instancies darrere d'un balancejador de carrega, controls de salut i fallada graciosa. La documentacio de Presidio no dona cap orientacio sobre aixo. Cada equip ho resol per separat.

Us de memoria: Els models spaCy es carreguen a la RAM per instancia. El model en_core_web_lg sol pesa 741 MB. Sota pressio de memoria, el rendiment baixa. Despres el proces falla amb un error de falta de memoria. Presidio no te cap orientacio integrada per a aixo.

Temps d'espera: Els documents grans triguen mes. El codi de produccio necessita temps d'espera configurables, respostes segures en cas de temps d'espera i logica de reintent. Res d'aixo esta documentat a Presidio.

Fallades de carrega del model: Amb alta concurrencia, multiples treballadors intenten carregar el mateix model spaCy al mateix temps. Aixo es una condicio de cursa. El resultat son errors 500 aleatoris que son dificils de reproduir. Els problemes de GitHub de Presidio ho documenten. La documentacio principal no.

Registres d'auditoria: El RGPD i HIPAA requereixen rastres d'auditoria per al processament de IIP. Presidio no te registre integrat. Cada equip ha d'escriure el seu propi middleware.

Versio de l'API: L'API de Presidio ha canviat entre versions. El codi construit per a Presidio 2.0 pot necessitar actualitzacions per a la versio 2.2 i superior. El pin de versio ajuda. Pero afegeix la seva propia carrega de manteniment.

Les sis setmanes d'un equip de SaaS sanitari

Aquest equip va incorporar l'anonimitzacio de PHI a una canalitzacio d'exportacio de dades de recerca.

Setmana 1: Van seguir la documentacio de Presidio. El desenvolupament local va funcionar. El desplegament a Kubernetes va fallar. La inicialitzacio dels pods generava errors de carrega del model. L'equip va perseguir problemes de configuracio de Kubernetes.

Setmana 2: La configuracio de Kubernetes es va solucionar. La carrega del model funcionava de vegades. Sota proves de carrega, aproximadament el 15% de les sol·licituds fallaven amb temps d'espera de carrega del model. Van afegir logica de reintent.

Setmana 3: La logica de reintent amagava el problema arrel pero superava les proves de carrega. Una revisio de compliment va demanar registres d'auditoria. L'equip va escriure middleware de registre personalitzat.

Setmana 4: Els tipus d'entitats sanitaries, numeros de historial medic i identificadors de plans de salut, no estaven coberts pels valors per defecte de Presidio. L'equip va escriure dos reconeixedors personalitzats.

Setmana 5: Van desplegar a produccio. Va apareixer una fuita de memoria. Els objectes del model spaCy s'acumulaven entre les sol·licituds. L'equip va afegir un reinici diari dels pods com a solucio provisional.

Setmana 6: La produccio va fallar amb el transit real. El reinici diari causava interrupcions del servei. La causa arrel era clara: la fuita de memoria necessitava un redisseny important de l'aplicacio o una eina diferent.

La revisio: El responsable d'enginyeria va fer els numeros. Sis setmanes multiplicades per dos enginyers equivalen a 12 setmanes d'enginyeria. El desplegament estava en viu pero inestable. El manteniment continuat es va estimar en 5 a 10 hores per setmana.

El canvi: L'equip va provar l'API d'anonym.legal. La cobertura d'entitats PHI va funcionar de serie. Sense necessitat de reconeixedors personalitzats. Temps de disponibilitat garantit per SLA. Registre d'auditoria inclos. La integracio va trigar 3 dies utilitzant el seu codi de client de l'API existent.

La comparativa de costos:

  • 12 setmanes d'enginyeria a tarifes de mercat dels EUA: 48.000-72.000 USD
  • Manteniment anual estimat per a l'allotjament propi: 25.000-40.000 USD
  • Pla Business d'anonym.legal: 348 EUR per any (aproximadament 385 USD)

L'API gestionada costa menys en la seva primera setmana que el que va costar la construccio allotjada en la seva primera hora.

Quan les dades no poden sortir de la xarxa

Alguns equips sanitaris no poden enviar dades a cap servei extern. Les normes d'aillament d'aire o les politiques de sobirania de dades ho impedeixen.

Per a aquests casos, l'Aplicacio d'Escriptori (anonym.plus) ofereix el mateix motor en una installacio local:

  • Mateix motor de deteccio: Presidio mes XLM-RoBERTa
  • Sense crides a serveis externs
  • Processament per lots per a notes cliniques i conjunts de dades de recerca
  • Sense configuracio mes enlla de la installacio
  • Gestio automatica del model

Aixo elimina la principal objeccio al SaaS gestionat: "les nostres dades no poden sortir." Pero mante la simplicitat que fa que les eines gestionades valguin la pena.

Construir vs. Comprar: un marc senzill

Trieu una API gestionada quan:

  • El vostre equip no te enginyers d'infraestructura dedicats
  • Necessiteu desplegar en dies, no en setmanes
  • El temps de disponibilitat garantit per SLA es un requisit
  • El servei gestionat cobreix els vostres tipus d'entitats
  • Necessiteu registres d'auditoria i registres de compliment inclosos

Trieu l'allotjament propi quan:

  • Les regulacions impedeixen que les dades surtin de la xarxa (comproveu primer l'Aplicacio d'Escriptori)
  • El vostre volum de processament fa que l'allotjament propi sigui mes barat a escala
  • Necessiteu una personalitzacio profunda que l'API no pot admetre
  • Teniu un equip de plataforma que ho tracta com un dels molts serveis gestionats

Trieu l'Aplicacio d'Escriptori quan:

  • Es requereix processament sense connexio
  • Les dades de recerca medica no poden sortir d'un entorn clinic
  • Les dades financeres tenen limits geografics de processament

Conclusio

Sis setmanes de temps d'enginyeria no son una fallada de Presidio. Es el cost esperat d'executar qualsevol servei NLP de qualitat de produccio pel vostre compte. L'escalat, els problemes de memoria, les fallades de carrega del model, els registres d'auditoria i el treball d'entitats personalitzades s'acumulen rapidament.

Les API gestionades absorbeixen aquest cost. Per a l'anonimitzacio de IIP, una necessitat de compliment i no una funcionalitat del producte, la via gestionada gairebé sempre guanya en cost total de propietat.

Llegiu com l'API d'anonym.legal gestiona la deteccio de PHI. Vegeu els detalls complets de compliment al nostre resum de seguretat. Compareu els plans a la nostra pagina de preus.

Fonts

  • Ploomber: Analisi profunda del desplegament en produccio de Presidio - ploomber.io.
  • Microsoft Fabric Community: Presidio amb PySpark - blog.fabric.microsoft.com.
  • Presidio GitHub: Problemes de desplegament en produccio - github.com/microsoft/presidio/issues.

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.