anonym.legal

By · Last updated 2026-06-05

Povratak na blogTehnička

Sa 6 nedelja na 3 dana: podesavanje upravljanog PII

Healthcare SaaS timovi provode 6 nedelja na deploymentu sopstveno hostovanog Presidio-a pre prelaska na upravljani API. Upravljani API zamenjuje deployment.

June 5, 20267 min čitanja
managed PII APIPresidio productionPHI anonymizationhealthcare SaaSbuild vs buy

Od sest nedelja DevOps bola do 3-dnevne integracije

Azurirano za 2026.

Sest nedelja. Dva inzenjera. Cetiri neuspela pokusaja deploymenta. Jedan healthcare SaaS tim potrosio je sve ovo na podesavanje sopstveno hostovanog Presidio-a. Zatim su presli na upravljani API. Prelaz je trajao 3 dana.

Oznaka "besplatno" na open-source softveru je primamljiva. Takva je i obecanje pune kontrole. Ali pravi trosak pojavljuje se u inzenjerskim satima. Ne u naknadama za licence.

Sta Presidio dokumentacija ne pokriva

Presidio-ova dokumentacija dobro pokriva lokalno podesavanje. Pokrenite dva Docker kontejnera. Ukazite anonimizator na analizator. Radi na vasem laptopu.

Produkcija je drugacija prica.

Skaliranje: Lokalni Presidio radi kao jedna instanca. Produkcija zahteva vise instanci iza load balancera, health checks i graceful failure. Presidio dokumentacija ne daje smernice o ovome. Svaki tim to resava sam.

Koristenje memorije: spaCy modeli se ucitavaju u RAM po instanci. Sam en_core_web_lg model je 741 MB. Pod memorijskim pritiskom, performanse padaju. Zatim proces pada sa greskom nedovoljno memorije. Presidio nema ugradjenih smernica za ovo.

Tajmauti: Veliki dokumenti traju duze. Produkcioni kod zahteva konfigurisane tajmaute, bezbedne odgovore na tajmaut i logiku ponovnog pokusaja. Nista od ovoga nije dokumentovano u Presidio-u.

Greske ucitavanja modela: Pod visokim paralelizmom, vise radnika pokusava da ucita isti spaCy model odjednom. Ovo je uslov trke. Rezultat su nasumicne 500 greske koje je tesko reprodukovati. GitHub problemi Presidio-a ovo dokumentuju. Glavna dokumentacija ne.

Revizijsko logovanje: GDPR i HIPAA zahtevaju revizijske tragove za obradu PII. Presidio nema ugradjenno logovanje. Svaki tim mora da napise sopstveni middleware.

Verzionisanje API-ja: Presidio-ov API se promenio izmedju verzija. Kod nagradjeni za Presidio 2.0 moze zahtevati azuriranja za 2.2 i vise. Fiksiranje verzije pomaze. Ali dodaje sopstveni teret odrzavanja.

Sest nedelja jednog healthcare SaaS tima

Ovaj tim ugradio je anonimizaciju PHI u cevovod za izvoz istrazivackih podataka.

Nedelja 1: Pratili su Presidio dokumentaciju. Lokalni dev je radio. Kubernetes deployment je pao. Inicijalizacija pod-a bacila je greske ucitavanja modela. Tim je jureao Kubernetes probleme sa konfiguracijom.

Nedelja 2: Kubernetes konfiguracija je popravljena. Ucitavanje modela je radilo ponekad. Pod load testiranjem, oko 15% zahteva je padalo sa tajmautima ucitavanja modela. Dodali su logiku ponovnog pokusaja.

Nedelja 3: Logika ponovnog pokusaja je sakrila koren problema, ali prosla load testove. Pregled uskladjenosti trazio je revizijske logove. Tim je napisao prilagodjeni logging middleware.

Nedelja 4: Healthcare tipovi entiteta - brojevi medicinskih kartona, ID-ovi zdravstvenih planova - nisu bili pokriveni Presidio defaults-ima. Tim je napisao dva prilagodjjena prepoznavaca.

Nedelja 5: Gurnuli su na produkciju. Pojavilo se curenje memorije. Objekti spaCy modela su se gomilali po zahtevima. Tim je dodao dnevni restart pod-a kao zaobilazno resenje.

Nedelja 6: Produkcija je pala pod stvarnim saobracajem. Dnevni restart je prouzrokovao prekide servisa. Koren problema je bio jasan: curenje memorije je zahtevalo ili veliku prepravljenost aplikacije ili drugaciji alat.

Pregled: Inzenjerski menadzer je izracunao brojeve. Sest nedelja puta dva inzenjera jednako je 12 inzenjerskih nedelja. Deployment je bio uzivo, ali nestabilan. Tekuce odrzavanje je procenjeno na 5 do 10 sati nedeljno.

Prelaz: Tim je testirao anonym.legal API. Pokrivenost PHI entiteta radila je odmah. Nisu bili potrebni prilagodjeni prepoznavaci. SLA-podrzano vreme rada. Revizijsko logovanje ukljuceno. Integracija je trajala 3 dana koristeci njihov postojeci API klijent kod.

Poredjenje troskova:

  • 12 inzenjerskih nedelja po americkim trzisnim stopama: 48.000 do 72.000 USD
  • Procenjeno godisnje odrzavanje za sopstveno hostovanje: 25.000 do 40.000 USD
  • anonym.legal Business plan: 348 EUR godisnje (otprilike 385 USD)

Upravljani API kosta manje u prvoj nedelji nego sto je sopstveno hostovana izgradnja kostala u prvom satu.

Kada podaci ne mogu napustiti vasu mrezu

Neki healthcare timovi ne mogu slati podatke ni na jedan externi servis. Pravila o air-gap-u ili politike suverenosti podataka to blokiraju.

Za ove slucajeve, Desktop aplikacija (anonym.plus) nudi isti motor u lokalnoj instalaciji:

  • Isti motor detekcije: Presidio plus XLM-RoBERTa
  • Bez poziva ka eksternim servisima
  • Grupna obrada za klinicke beleske i istrazivacke skupove podataka
  • Bez podesavanja osim instalacije
  • Automatsko upravljanje modelima

Ovo uklanja glavni prigovor upravljanom SaaS-u: "nasi podaci ne mogu izaci." Ipak zadrzava jednostavnost zbog koje su upravljani alati vredni.

Gradnja vs. kupovina: jednostavan okvir

Izaberite upravljani API kada:

  • Vas tim nema namenskih infrastrukturnih inzenjera
  • Trebate isporuciti za dane, ne za nedelje
  • SLA-podrzano vreme rada je zahtev
  • Upravljani servis pokriva vase tipove entiteta
  • Trebate revizijske logove i evidencije uskladjenosti ukljucene

Izaberite sopstveno hostovanje kada:

  • Regulacije blokiraju podatke da napuste vasu mrezu (prvo proverite Desktop aplikaciju)
  • Vas obim obrade cini sopstveno hostovanje jeftinijim u velikom obimu
  • Trebate duboku prilagodbu koju API ne moze podrzati
  • Imate platformski tim koji ovo tretira kao jedan od mnogih upravljanih servisa

Izaberite Desktop aplikaciju kada:

  • Offline obrada je obavezna
  • Medicinski istrazivacki podaci ne mogu napustiti klinicko okruzenje
  • Finansijski podaci imaju geografska ogranicenja obrade

Zakljucak

Sest nedelja inzenjerskog vremena nije mana Presidio-a. To je ocekivani trosak pokretanja bilo kog produkcijskog NLP servisa na sopstveni racun. Skaliranje, problemi sa memorijom, greske ucitavanja modela, revizijski logovi i prilagodjeni rad sa entitetima brzo se gomilaju.

Upravljani API-ji apsorbuju taj trosak. Za PII anonimizaciju - potrebu uskladjenosti, a ne karakteristiku proizvoda - upravljani put gotovo uvek pobedjuje po ukupnom troskosnom vlasnistvu.

Procitajte kako anonym.legal API rukuje PHI detekcijom. Pogledajte detalje uskladjenosti u nasem pregledu bezbednosti. Uporedite planove na nasoj stranici za cene.

Izvori

  • Ploomber: Presidio Production Deployment Deep Dive - ploomber.io.
  • Microsoft Fabric Community: Presidio with PySpark - blog.fabric.microsoft.com.
  • Presidio GitHub: Production Deployment Issues - github.com/microsoft/presidio/issues.

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.