anonym.legal

By · Last updated 2026-06-05

Terug na BlogTegnies

6 Weke na 3 Dae: Bestuurde PII-Opstelling

Gesondheidsorg-SaaS-spanne bestee 6 weke aan selfgasheerde Presidio-produksie-ontplooiing voordat hulle na bestuurde API oorskakel. Die bestuurde API vervang die ontplooiing.

June 5, 20267 min lees
managed PII APIPresidio productionPHI anonymizationhealthcare SaaSbuild vs buy

Van Ses Weke van DevOps-Pyn na 'n 3-Dag-Integrasie

Opgedateer vir 2026.

Ses weke. Twee ingenieurs. Vier mislukte ontplooiingspogings. Een gesondheidsorg-SaaS-span het dit alles bestee aan 'n selfgasheerde Presidio-opstelling. Toe het hulle na 'n bestuurde API oorgeskakel. Die oorskakeling het 3 dae geneem.

Die "gratis"-etiket op oopbron-sagteware is aanloklik. So ook die belofte van volle beheer. Maar die werklike koste verskyn in ingenieursure. Nie lisensiefooie nie.

Wat Presidio-Dokumentasie Nie Dek Nie

Presidio se dokumentasie hanteer plaaslike opstelling goed. Loop twee Docker-houers. Wys die anonimiseringsdiens na die ontleder. Dit werk op u skootrekenaar.

Produksie is 'n ander verhaal.

Skaal: Plaaslike Presidio loop as 'n enkele instansie. Produksie benodig verskeie instansies agter 'n lasverdeler, gesondheidskontroles en grondige mislukking. Presidio-dokumentasie bied geen leiding hieroor nie. Elke span los dit alleen op.

Geheueverbruik: spaCy-modelle laai in RAM per instansie. Die en_core_web_lg-model alleen is 741 MB. Onder geheuekrag val prestasie. Dan crash die proses met 'n geheue-fout. Presidio het geen ingeboude leiding hieroor nie.

Tyduitval: Groot dokumente neem langer. Produksiekode benodig instelbare tyduitval, veilige tyduitval-antwoorde en herproberinglogika. Niks van dit is in Presidio gedokumenteer nie.

Modellaaifailures: Onder hoe gelyktydigheid probeer verskeie werkers om dieselfde spaCy-model gelyktydig te laai. Dit is 'n wedloopkondisie. Die resultaat is ewekansige 500-foute wat moeilik is om te reproduseer. Presidio-GitHub-kwessies dokumenteer dit. Die hooftemiddels doen dit nie.

Ouditaantekeningleers: GDPR en HIPAA vereis ouditspore vir PII-verwerking. Presidio het geen ingeboude aantekening nie. Elke span moet hulle eie middleware skryf.

API-weergawebeheer: Presidio se API het tussen weergawes verander. Kode gebou vir Presidio 2.0 mag opdaterings benodig vir 2.2 en hoer. Weergawebinding help. Maar dit voeg sy eie instandhoudingslast by.

'n Gesondheidsorg-SaaS-Span se Ses Weke

Hierdie span het PHI-anonimisering in 'n navorsingsdata-uitvoerpyplyn gebou.

Week 1: Hulle het die Presidio-dokumentasie gevolg. Plaaslike ontwikkeling het gewerk. Die Kubernetes-ontplooiing het misluk. Pod-initialisering het modellaaifailures gegooi. Die span het Kubernetes-konfigurasie-kwessies agtervolg.

Week 2: Kubernetes-konfigurasie is herstel. Modellaai het soms gewerk. Onder ladingstoetsing het sowat 15% van versoeke met modellaaie-tyduitval misluk. Hulle het herproberinglogika bygevoeg.

Week 3: Herproberinglogika het die wortelkwessie verberg maar ladingstoetse geslaag. 'n Nakomingshersiening het ouditaantekeningleers gevra. Die span het pasgemaakte aantekeningsmiddleware geskryf.

Week 4: Gesondheidsorg-entiteitstipes -- mediese rekordnommers, gesondheidsplan-ID's -- was nie deur Presidio-versteks gedek nie. Die span het twee pasgemaakte herkenners geskryf.

Week 5: Hulle het na produksie gestoot. 'n Geheuelekk het verskyn. spaCy-modelobjekte het oor versoeke opgebou. Die span het 'n daaglikse pod-herbegin as 'n tydelike oplossing bygevoeg.

Week 6: Produksie het onder werklike verkeer misluk. Die daaglikse herbegin het diensgapings veroorsaak. Die worteloorsaak was duidelik: die geheuelekk benodig enige 'n groot herontwerp van die toepassing of 'n ander nutsmiddel.

Die hersiening: Die ingenieurbestuurder het die syfers gedoen. Ses weke maal twee ingenieurs is gelyk aan 12 ingeniersweke. Die ontplooiing was lewendig maar onstabiel. Deurlopende instandhouding is geskat op 5 tot 10 uur per week.

Die oorskakeling: Die span het die anonym.legal API getoets. PHI-entiteitsdekking het direk gewerk. Geen pasgemaakte herkenners nodig nie. SLA-ondersteunde beskikbaarheid. Ouditaantekening ingesluit. Integrasie het 3 dae geneem met hulle bestaande API-klientkode.

Die kostevergelyking:

  • 12 ingeniersweke teen Amerikaanse markkoerse: $48,000 tot $72,000
  • Geskatte jaarlikse instandhouding vir selfgasheer: $25,000 tot $40,000
  • anonym.legal Besigheidsplan: EUR 348 per jaar (sowat $385)

Die bestuurde API kos minder in sy eerste week as wat die selfgasheerde bou in sy eerste uur gekos het.

Wanneer Data Nie u Netwerk Kan Verlaat Nie

Sommige gesondheidsorgspanne kan geen data na 'n eksterne diens stuur nie. Luggatreels of datasoewereiniteitsbeleide blokkeer dit.

Vir hierdie gevalle bied die Lessenaartoepassing (anonym.plus) dieselfde enjin in 'n plaaslike installasie:

  • Dieselfde opsporingsenjin: Presidio plus XLM-RoBERTa
  • Geen oproepe na eksterne dienste nie
  • Lotewerking vir kliniese notas en navorsingsdatastelle
  • Geen opstelling buite installasie nie
  • Outomatiese modelbestuur

Dit verwyder die hoobeswaar teen bestuurde SaaS: "ons data kan nie verlaat nie." Dit behou steeds die eenvoud wat bestuurde nutsmiddels werd maak.

Bou vs. Koop: 'n Eenvoudige Raamwerk

Kies 'n bestuurde API wanneer:

  • U span het geen toegewyde infrastruktuuringenieurs nie
  • U moet binne dae stuur, nie weke nie
  • SLA-ondersteunde beskikbaarheid is 'n vereiste
  • Die bestuurde diens dek u entiteitstipes
  • U ouditaantekeningleers en nakomingsrekords ingesluit benodig

Kies selfgasheer wanneer:

  • Regulasies verhoed data om u netwerk te verlaat (kontroleer eers die Lessenaartoepassing)
  • U verwerkingsvolume maak selfgasheer goedkoper op skaal
  • U diepgaande aanpassing benodig wat die API nie kan ondersteun nie
  • U 'n platformspan het wat dit as een van baie bestuurde dienste behandel

Kies die Lessenaartoepassing wanneer:

  • Vanlyn verwerking vereis word
  • Mediese navorsingsdata kan nie 'n kliniese omgewing verlaat nie
  • Finansiele data het geografiese verwerkingsbeperkings

Gevolgtrekking

Ses weke van ingenieursarbeid is nie 'n Presidio-fout nie. Dit is die verwagte koste om enige produksiegraad-NLP-diens op u eie te bestuur. Skaal, geheue-kwessies, modellaaifailures, ouditaantekeningleers en pasgemaakte entiteitswerk voeg vinnig op.

Bestuurde API's absorbeer hierdie koste. Vir PII-anonimisering -- 'n nakomingsbehoefte, nie 'n produk-kenmerk nie -- wen die bestuurde roete byna altyd op totale eienaarskapskoste.

Lees hoe die anonym.legal API PHI-opsporing hanteer. Sien volledige nakomingbesonderhede in ons sekuriteitsoorsig. Vergelyk planne op ons prysblad.

Bronne

  • Ploomber: Presidio Produksie-Ontplooiing -- ploomber.io.
  • Microsoft Fabric-gemeenskap: Presidio met PySpark -- blog.fabric.microsoft.com.
  • Presidio GitHub: Produksie-Ontplooiingskwessies -- github.com/microsoft/presidio/issues.

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.