anonym.legal

By · Last updated 2026-06-05

Nazaj na blogTehnično

6 tednov na 3 dni: upravljana nastavitev PII

Ekipe zdravstvenih SaaS preñdejo 6 tednov na lastno gostovano produkcijsko namestitev Presidia, preden preidejo na upravljani API. Upravljani API zamenja namestitev.

June 5, 20267 min branja
managed PII APIPresidio productionPHI anonymizationhealthcare SaaSbuild vs buy

Od šestih tednov DevOps bolecin do 3-dnevne integracije

Posodobljeno za leto 2026.

Šest tednov. Dva inzenirja. Stiri neuspešne poskuse namestitve. Ena ekipa zdravstvenih SaaS je vse to porabila za lastno gostovano nastavitev Presidia. Nato so prešli na upravljani API. Prehod je trajal 3 dni.

Oznaka "brezplacno" na odprtokodni programski opremi je mamilna. Enako obljuba popolnega nadzora. Toda pravi strošek se pokaže v urah inzeniringa. Ne v licencnih pristojbinah.

Kaj dokumentacija Presidia ne pokriva

Dokumentacija Presidia dobro obravnava lokalno nastavitev. Zazenite dva Docker vsebnika. Usmerite anonimizator na analizator. To deluje na vašem prenosnem racunalniku.

Produkcija je druga zgodba.

Skaliranje: Lokalni Presidio deluje kot ena instanca. Produkcija potrebuje vec instanc za porazdeljevalnikom obremenitve, zdravstvene preglede in elegantno odpoved. Dokumentacija Presidia tega ne obravnava. Vsaka ekipa to rešuje sama.

Poraba pomnilnika: Modeli spaCy se nalagajo v RAM na instanco. Sam model en_core_web_lg je velik 741 MB. Pri pomnilniškem pritisku se zmogljivost zmanjša. Nato se proces sesuje z napako zunaj pomnilnika. Presidio nima vgrajenih smernic za to.

Casovne omejitve: Veliki dokumenti trajajo dlje. Produkcijska koda potrebuje nastavljive casovne omejitve, varne odgovore ob casovni omejitvi in logiko ponovnega poskusa. Nic od tega ni dokumentirano v Presidiu.

Napake pri nalaganju modelov: Pod visoko sooasnostjo vec delavcev poskuša hkrati naloziti isti model spaCy. To je stanje dirke. Rezultat so nakljucne napake 500, ki jih je tezko reproducirati. Te tezave so dokumentirane v GitHub težavah Presidia. Glavna dokumentacija tega ne.

Revizijski dnevniki: GDPR in HIPAA zahtevata revizijske sledi za obdelavo PII. Presidio nima vgrajenega beleženja. Vsaka ekipa mora napisati lastno vmesno programsko opremo.

Verzioniranje API: API Presidia se je spremenil med razlicicami. Koda, zgrajena za Presidio 2.0, morda potrebuje posodobitve za 2.2 in novejše. Pritrditev verzij pomaga. A doda lasten breme vzdrzevanja.

Šest tednov ekipe zdravstvenih SaaS

Ta ekipa je zgradila anonimizacijo PHI v cevovod za izvoz podatkov za raziskave.

Teden 1: Sledili so dokumentaciji Presidia. Lokalni razvoj je deloval. Namestitev Kubernetes je odpoved. Inicializacija poda je vrgla napake nalaganja modelov. Ekipa je lovila tezave s konfiguracijo Kubernetes.

Teden 2: Konfiguracija Kubernetes je bila popravljena. Nalaganje modelov je vcasih delovalo. Pri obremenitvenem testiranju je priblizno 15 % zahtevkov odpovedalo z casovnimi omejitvami nalaganja modelov. Ekipa je dodala logiko ponovnega poskusa.

Teden 3: Logika ponovnega poskusa je skrila temeljno težavo, a je prestala obremenitevne teste. Pregled skladnosti je zahteval revizijske dnevnike. Ekipa je napisala lastno beleževalno vmesno programsko opremo.

Teden 4: Vrste entitet za zdravstvo -- stevilke medicinskih zapisov, ID-ji zdravstvenih nacrtov -- niso bile pokrite s privzetimi vrednostmi Presidia. Ekipa je napisala dva prepoznavalnika po meri.

Teden 5: Potisnili so v produkcijo. Pojavilo se je pomnilniško uhajanje. Objekti modela spaCy so se kopicili po zahtevkih. Ekipa je kot obhod dodala dnevni ponovni zagon poda.

Teden 6: Produkcija je odpoved pri resnicnem prometu. Dnevni ponovni zagon je povzrocil vrzel v storitvi. Temeljni vzrok je bil jasen: pomnilniško uhajanje je zahtevalo bodisi vecjo prenovo aplikacije ali drugacno orodje.

Pregled: Vodja inzeniringa je naredil izracun. Šest tednov krat dva inzenirja enako 12 inzenirskih tednov. Namestitev je bila ziva, a nestabilna. Tekoco vzdrzevanje je bilo ocenjeno na 5 do 10 ur na teden.

Prehod: Ekipa je preizkusila API anonym.legal. Pokritost entitet PHI je delovala ze takoj. Nobeni prepoznavalniki po meri niso bili potrebni. Zagotovljeni cas delovanja. Revizijsko beleženje vkljuceno. Integracija je trajala 3 dni z obstojecim odjemalcem API.

Primerjava stroškov:

  • 12 inzenirskih tednov pri ameriških trznih cenah: 48.000-72.000 USD
  • Ocenjeno letno vzdrzevanje za lastno gostovanje: 25.000-40.000 USD
  • Paket Business anonym.legal: 348 EUR na leto (priblizno 385 USD)

Upravljani API stane manj v prvem tednu, kot je stala lastno gostovana gradnja v prvi uri.

Ko podatki ne smejo zapustiti vašega omrezja

Nekatere zdravstvene ekipe ne morejo pošiljati podatkov na nobeno zunanjo storitev. Pravila o varnostnem prehodu brez dostopa do interneta ali politike suverenosti podatkov to prepovedujejo.

Za te primere Namizna aplikacija (anonym.plus) ponuja isti motor v lokalni namestitvi:

  • Isti motor zaznavanja: Presidio plus XLM-RoBERTa
  • Nobenih klicev na zunanje storitve
  • Paketna obdelava klinicnih zapiskov in naborov podatkov za raziskave
  • Nobena nastavitve razen namestitve
  • Samodejno upravljanje modelov

S tem je odpravljen glavni ugovor proti upravljanemu SaaS: "naši podatki ne smejo oditi." Ohrani pa preprosti¸nost, ki naredi upravljana orodja vredna.

Gradnja ali nakup: enostavni okvir

Izberite upravljani API, ko:

  • Vaša ekipa nima namenjenih infrastrukturnih inzenirjev
  • Potrebujete dobavo v dneh, ne tednih
  • Zagotovljeni cas delovanja je zahteva
  • Upravljana storitev pokriva vaše vrste entitet
  • Potrebujete revizijske dnevnike in zapise o skladnosti vkljucene

Izberite lastno gostovanje, ko:

  • Predpisi prepovedujejo odhajanje podatkov iz omrezja (najprej preverite Namizno aplikacijo)
  • Vaša kolicina obdelave naredi lastno gostovanje cenejše v obsegu
  • Potrebujete globoko prilagoditev, ki je API ne more podpreti
  • Imate platformno ekipo, ki to obravnava kot eno od številnih upravljanih storitev

Izberite Namizno aplikacijo, ko:

  • Zahtevana je obdelava brez povezave
  • Medicinski podatki za raziskave ne smejo zapustiti klinicnega okolja
  • Financni podatki imajo geografske omejitve obdelave

Zakljucek

Šest tednov inzenirskega casa ni napaka Presidia. To je pricakovani strošek zagona kakršnekoli produkcijske storitve NLP na lastnem sistemu. Skaliranje, pomnilniške tezave, napake pri nalaganju modelov, revizijski dnevniki in lastno delo z entitetami se hitro seštejejo.

Upravljani API-ji absorbira ta strošek. Za anonimizacijo PII -- potrebo po skladnosti, ne funkcijo izdelka -- upravljana pot skoraj vedno zmaga pri skupnih lastniških stroških.

Preberite, kako API anonym.legal obravnava zaznavanje PHI. Oglejte si podrobnosti o skladnosti v našem pregledu varnosti. Primerjajte pakete na naši strani s cenami.

Viri

  • Ploomber: Poglobljeni pregled produkcijske namestitve Presidia -- ploomber.io.
  • Microsoft Fabric Community: Presidio s PySpark -- blog.fabric.microsoft.com.
  • Presidio GitHub: Tezave pri produkcijski namestitvi -- github.com/microsoft/presidio/issues.

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.