By · Last updated 2026-06-05

Späť na blogTechnické

Od 6 tyzднov na 3 dni: spravované API pre PII

Tímy SaaS v zdravotníctve trávia 6 tyzднov na produkcionom nasadení vlastnohosteného Presidio, kym neprejdú na spravované API. Spravované API nahradí celý projekt nasadenia.

June 5, 20267 min čítania
managed PII APIPresidio productionPHI anonymizationhealthcare SaaSbuild vs buy

Od šiestich tyzднov DevOps trápenia po 3-dennú integráciu

Aktualizované pre rok 2026.

Šest tyzднov. Dvaja inzinieri. Štyri neúspešné pokusy o nasadenie. Jeden tím SaaS v zdravotníctve strávil toto všetko na vlastnohostenom nastavení Presidio. Potom prešli na spravované API. Prechod trval 3 dni.

Nálepka "zadarmo" na open-source softvéri je lákavá. Rovnako aj prislab plnej kontroly. Ale skutocné náklady sa objavujú v inzinierskych hodinách. Nie v poplatkoch za licenciu.

Co dokumentácia Presidio nepokryva

Dokumentácia Presidio dobre zvládá lokálne nastavenie. Spustite dva kontajnery Docker. Ukázate anonymizátor na analyzátor. Na vašom laptope to funguje.

Produkcia je iný príbeh.

Škálovanie: Lokálne Presidio beží ako jedna inštancia. Produkcia potrebuje viacero inštancií za nástroj na vyrovnávanie zaataze, kontroly stavu a bezpecné zlyhanie. Dokumentácia Presidio neposkytuje ziadne pokyny k tomu. Kazdy tím to rieši sám.

PouÎzitie pamäte: Modely spaCy sa nacítajú do RAM na inštanciu. Samotny model en_core_web_lg má 741 MB. Pod tlakom pamäte výkon klesá. Potom proces padne s chybou nedostatku pamäte. Presidio nemá zabudované pokyny k tomu.

Casové limity: Velké dokumenty trvajú dlhšie. Produkcioný kód potrebuje konfigurovatelné casové limity, bezpecné odpovede pri timeoutechu a logiku opakovania. Presidio toto nedokumentuje.

Zlyhania nacítania modelu: Pri vysokej konkurencii sa viacerí pracovníci pokúšajú súcasne nacítat rovnaky model spaCy. To je podmienka závodu. Výsledkom su náhodné chyby 500, ktore sa tazko reprodukujú. Problémy na GitHub Presidio to dokumentujú. Hlavná dokumentácia nie.

Audit logy: GDPR a HIPAA vyzadujú audit trails pre spracovanie PII. Presidio nemá zabudované logovanie. Kazdy tím musí napísat vlastný middleware.

Verziovanie API: API Presidio sa zmenilo medzi verziami. Kód vytvoreny pre Presidio 2.0 môze potrebovat aktualizácie pre 2.2 a novšie. Pinnovanie verzie pomáha. Ale pridáva vlastné zaataze údrzby.

Šest tyzднov jedného tímu SaaS v zdravotníctve

Tento tím zabudoval anonymizáciu PHI do potrubia exportu vyskumnych dát.

1. tyzden: Postupoval podla dokumentácie Presidio. Lokálny vývoj fungoval. Nasadenie na Kubernetes zlyhalo. Inicializácia podu hádzala chyby nacítania modelu. Tím honil problémy s konfiguráciou Kubernetes.

2. tyzden: Konfigurácia Kubernetes bola opravená. Nacítanie modelu fungovalo niekedy. Pri záatazovom testovaní priblizne 15 % poziadaviek zlyhalo s casovymi limitmi nacítania modelu. Pridali logiku opakovania.

3. tyzden: Logika opakovania skryla hlavny problém, ale prešla záatazovymi testami. Kontrola súladu pozadovala audit logy. Tím napísal vlastny logovaci middleware.

4. tyzden: Typy entít v zdravotníctve — císla zdravotnych záznamov, ID zdravotnych plánov — neboli pokryté predvolenymi nastaveniami Presidio. Tím napísal dva vlastné rozpoznávace.

5. tyzden: Potlacili do produkcie. Objavil sa únik pamäte. Objekty modelov spaCy sa hromadili medzi poziadavkami. Tím pridal denne restartovanie podu ako docasné riešenie.

6. tyzden: Produkcia zlyhala pod skutocnou prevádzkou. Denné reštartovanie spôsobovalo medzery v sluzbe. Základná príciha bola jasná: únik pamäte potreboval bud väcší prepracovanie aplikácie, alebo iný nástroj.

Zhodnotenie: Manazér inzinierstva spocítal císla. Šest tyzднov krát dvaja inzinieri sa rovná 12 inzinierskym tyzdnom. Nasadenie bolo spustené, ale nestabilné. Priebezná údrzba bola odhadnutá na 5 az 10 hodín tyzdenne.

Prechod: Tím otestoval API anonym.legal. Pokrytie entít PHI fungovalo hned po vybalení z krabice. Ziadne vlastné rozpoznávace nie su potrebné. SLA zálohovana dostupnost. Audit logovanie zahrnuté. Integrácia trvala 3 dni pomocou ich existujúceho klientského kódu API.

Porovnanie nákladov:

  • 12 inzinieIrskych tyzднov pri sazdzbách trhu USA: 48 000 az 72 000 USD
  • Odhadovaná rocná údrzba pre vlastné hosťovanie: 25 000 az 40 000 USD
  • Plán Business anonym.legal: 348 EUR rocne (priblizne 385 USD)

Spravované API stojí menej v prvom tyzdni, ako stál vlastnohosteny build v prvej hodine.

Ked dáta nemôzu opustit vašu siet

Niektoré tímy v zdravotníctve nemôzu odoslat dáta žiadnej externej sluzbe. Pravidlá air-gap alebo zásady dátovej suverenity to blokujú.

Pre tieto prípady ponúka desktopová aplikácia (anonym.plus) rovnaky motor v lokálnej inštalácii:

  • Rovnaky detekcny motor: Presidio plus XLM-RoBERTa
  • Ziadne volania externych sluzob
  • Dávkové spracovanie klinickych poznámok a vyskumnych datasetov
  • Ziadne nastavenie okrem inštalácie
  • Automatická správa modelu

To odstrania hlavnú námietku proti spravovanému SaaS: "naše dáta nemôzu odíst." Stále si zachováva jednoduchosť, ktora robí spravované nástroje hodnotnymi.

Vybudovat vs. kúpit: jednoduchý rámec

Zvolte spravované API, ked:

  • Váš tím nemá vyhradených inzinieroch infraštruktúry
  • Potrebujete dodat za dni, nie tyzdne
  • SLA zálohovana dostupnost je poÎziadavka
  • Spravovaná sluzba pokryva vaše typy entít
  • Potrebujete audit logy a záznamy súladu zahrnuté

Zvolte vlastné hosťovanie, ked:

  • Nariadenia blokujú dáta opustit vašu siet (najskôr skontrolujte desktopovú aplikáciu)
  • Objem spracovania robí vlastné hosťovanie lacnejším v meradle
  • Potrebujete hlboké prispôsobenie, ktore API nemôze podporit
  • Máte platformovy tím, ktory to berie ako jednu z mnohych spravovaných sluzieb

Zvolte desktopovú aplikáciu, ked:

  • Je potrebné offline spracovanie
  • Medicínske vyskumné dáta nemôzu opustit klinické prostredie
  • Financné dáta majú geografické limity spracovania

Záver

Šest tyzднov inzienierskeho casu nie je chybou Presidio. Je to ocakávaný náklad prevadzkovania akejkolvek produkcionej NLP sluzby na vlastnej infraštruktúre. Škálovanie, problémy s pamäcou, zlyhania nacítania modelu, audit logy a vlastná práca na entitách sa rychlo scítavajú.

Spravované API absorbujú tieto náklady. Pre anonymizáciu PII — potrebu súladu, nie funkcionalitu produktu — spravovaná cesta takmer vzdy vyhráva v celkovych nákladoch vlastníctva.

Precítajte si, ako API anonym.legal spracúva detekciu PHI. Pozrite si úplné podrobnosti súladu v našom prehladu bezpecnosti. Porovnajte plány na našej stránke cien.

Zdroje

  • Ploomber: Hlboký ponor do produkcioného nasadenia Presidio — ploomber.io.
  • Microsoft Fabric Community: Presidio s PySpark — blog.fabric.microsoft.com.
  • Presidio GitHub: Problémy produkcioného nasadenia — github.com/microsoft/presidio/issues.

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.