By · Last updated 2026-06-05

Itzuli BlogeraTeknikoa

6 astetik 3 egunera: kudeatu PII konfigurazioa

Osasun SaaS taldeek 6 aste ematen dituzte autobertako Presidio produkzio-hedapenean kudeatu APIra aldatu aurretik. Kudeatu APIak hedapena ordezkatzen du.

June 5, 20267 min irakurri
managed PII APIPresidio productionPHI anonymizationhealthcare SaaSbuild vs buy

DevOps Minaren Sei Astetik 3 Eguneko Integraziora

2026rako eguneratua.

Sei aste. Bi ingeniari. Lau hedapen-saiakera huts. Osasun SaaS talde batek hori guztia autobertako Presidio konfigurazio batean eman zuen. Ondoren kudeatu APIra aldatu ziren. Aldaketa hiru egun behar izan zuen.

Kode irekiko softwarearen "dohainik" etiketa erakargarria da. Bai kontrol osoarekiko agindua ere. Baina benetako kostua ingeniaritza-orduetan agertzen da. Ez lizentzia-tasen.

Presidio Dokumentuek Ez Dutena Estaltzen

Presidioren dokumentuek tokiko konfigurazioa ondo estaltzen dute. Bi Docker edukiontzi exekutatu. Anonimizatzailea analizatzaileari begira jarri. Zure ordenagailu eramangarrian funtzionatzen du.

Produkzioa beste istorio bat da.

Eskalatzea: Tokiko Presidio instantzia bakar gisa exekutatzen da. Produkzioak hainbat instantzia behar ditu karga-oreka, osasun-egiaztapenak eta porrot dotorea. Presidio dokumentuek ez dute horren inguruko gidaririk ematen. Talde bakoitzak bakarrik konpontzen du.

Memoria-erabilera: spaCy ereduak RAM-era kargatzen dira instantzia bakoitzeko. `en_core_web_lg` eredu soilik 741 MB da. Memoria-presioa pean, errendimendua jaisten da. Ondoren prozesuak memoria-akabatze errore batekin huts egiten du. Presidio-k ez du honen inguruko barneko gidaritasunik.

Denborak: Dokumentu handiek denbora gehiago behar dute. Produkzio-kodeak denbora konfiguragarria, denbora-irauntzaren erantzun seguruak eta saiakera-logika behar ditu. Hau guztia Presidio-n ez dago dokumentatua.

Eredu-kargatzeko porrotak: Konkurrentzia altu pean, hainbat langilek spaCy eredu bera aldi berean kargatzen saiatzen dira. Hau arraza-baldintza da. Emaitza erreproduzitu zaila den ausazko 500 erroreak dira. Presidio GitHub-eko arazoak hau dokumentatzen du. Dokumentazio nagusiak ez du.

Auditoria-erregistroak: GDPRek eta HIPAAk PII prozesatzeko auditoria-ibilbideak eskatzen dituzte. Presidio-k ez du barneko erregistrorik. Talde bakoitzak bere middleware-a idatzi behar du.

API bertsiotzea: Presidioren APIa bertsio artean aldatu da. Presidio 2.0rako eraikitako kodeak 2.2 eta gorago eguneratzeak behar ditu. Bertsio-geldiarazpena laguntzen du. Baina bere mantentze-karga gehitzen du.

Osasun SaaS Taldearen Sei Astea

Talde honek PHI anonimizazioa ikerketa-datu esportazio bide batean eraiki zuen.

1. astea: Presidio dokumentuak jarraitu zituzten. Tokiko garapena funtzionatu zuen. Kubernetes hedapenak huts egin zuen. Pod-aren hasieratzeak eredu-kargatzeko erroreak sortu zituen. Taldeak Kubernetes konfigurazio arazoak bilatu zituen.

2. astea: Kubernetes konfigurazioa konponduta. Eredu-kargatzea noizean behin funtzionatzen zuen. Karga-probapean, eskaeren %15 inguru eredu-kargatzeko denborak igarotzen zuten. Saiakera-logika gehitu zuten.

3. astea: Saiakera-logikak erroa ezkutatu zuen baina karga-probak gainditu zituen. Betetze-berrikusketa batek auditoria-erregistroak eskatu zituen. Taldeak middleware pertsonalizatua idatzi zuen.

4. astea: Osasun-entitate motak - mediku-erregistro zenbakiak, osasun-plan IDak - Presidio lehenetsiak estaltzen ez zituen. Taldeak bi ezagutzaile pertsonalizatu idatzi zituen.

5. astea: Produkziora eraman zuten. Memoria-ihes bat agertu zen. spaCy eredu-objektuak eskaeren artean pilatu ziren. Taldeak eguneroko pod berrabiaraztea konponbide gisa gehitu zuen.

6. astea: Produkzioak benetako trafikopean huts egin zuen. Eguneroko berrabiarazteak zerbitzu-tarteak sortu zituen. Erroa argia zen: memoria-ihesak aplikazioaren berreraikitze nagusia edo tresna ezberdin bat behar zituen.

Berrikuspena: Ingeniaritza-kudeatzaileak zenbakiak atera zituen. Sei aste bider bi ingeniari hamabi ingeniaritza-astetan ematen da. Hedapena bizian zegoen baina ezegonkorra. Urteko mantentze-lana asteko 5 eta 10 ordu bitartean estimatu zen.

Aldaketa: Taldeak anonym.legal APIa probatu zuen. PHI entitate-estalpena kutxatik atera zen. Ez ziren ezagutzaile pertsonalizaturik behar. SLAz babestutako uptime. Auditoria-erregistroa barne. Integrazioak 3 egun behar izaten zituen lehendik zegoen API bezero-kodea erabiliz.

Kostu-konparaketa:

  • 12 ingeniaritza-aste AEBetako merkatuko tasen arabera: 48.000 eta 72.000 dolar artean
  • Autobertako urteko mantentze estimatua: 25.000 eta 40.000 dolar artean
  • anonym.legal Business plana: 348 euro/urte (gutxi gorabehera 385 dolar)

Kudeatu APIak lehen astean baino gutxiago kostatzen du autobertako eraikuntza lehen orduan baino.

Datuak Zure Saretik Atera Ezin Direnean

Osasun-talde batzuek ezin dituzte datuak kanpoko zerbitzu batera bidali. Aire-gune arauak edo datu-subiranotasun politikek blokeatzen dute.

Kasu hauetarako, Desktop Aplikazioak (anonym.plus) motor bera eskaintzen du tokiko instalazio batean:

  • Detekzio-motor bera: Presidio gehi XLM-RoBERTa
  • Ez du kanpoko zerbitzuetara deirik egiten
  • Kliniko-oharren eta ikerketa-datu-multzo batcheko prozesatzea
  • Instalazioa baino konfigurazio gehiago ez
  • Ereduaren kudeaketa automatikoa

Horrek kudeatu SaaS-en eragozpen nagusia kentzen du: "gure datuak ezin dira irten." Oraindik kudeatu tresnak merezi duten sinpletasuna gordetzen du.

Eraikitzen vs Erostea: Esparru Sinplea

Kudeatu API bat aukeratu noiz:

  • Zure taldeak ez dauka azpiegitura-ingeniari dedikaturik
  • Egunetan zehar bidali behar duzu, ez astetan
  • SLAz babestutako uptime eskakizuna da
  • Kudeatu zerbitzuak zure entitate-motak estaltzen ditu
  • Auditoria-erregistroak eta betetze-erregistroak barne behar dituzu

Autobertako ostatzea aukeratu noiz:

  • Araupeek datuak zure saretik irtetea blokeatzen dute (Desktop App-a lehenik egiaztatu)
  • Zure prozesatze-bolumena autobertako prozesatzea eskalan merkeago egiten du
  • APIak onartzen ez duen pertsonalizazio sakona behar duzu
  • Zerbitzuetako bat bezala tratatzen duen plataforma-taldea daukazue

Desktop Aplikazioa aukeratu noiz:

  • Konektatu gabeko prozesatzea beharrezkoa da
  • Mediku-ikerketa-datuak ezin dira ingurune kliniko batetik irten
  • Finantza-datuek prozesatze-muga geografikoak dituzte

Ondorioa

Sei asteko ingeniaritza-denbora ez da Presidio-ren akats bat. Edozein produkzio-mailako NLP zerbitzuren exekutatze-kostu espero da. Eskalatzea, memoria-arazoak, eredu-kargatzeko porrotak, auditoria-erregistroak eta entitate-lan pertsonalizatua azkar batzen dira.

Kudeatu APIek kostu hori xurgatzen dute. PII anonimizaziorako - betetze-eskakizuna, ez produktu-eginbide bat - kudeatu bidea ia beti irabazten du jabetza-kostu totalean.

Irakurri anonym.legal APIak PHI detekzioa nola kudeatzen duen. Ikusi betetze-xehetasunak guztiak gure segurtasun ikuspegi orokorrean. Konparatu planak gure prezio-orrian.

Iturriak

  • Ploomber: Presidio Production Deployment Deep Dive - ploomber.io.
  • Microsoft Fabric Community: Presidio with PySpark - blog.fabric.microsoft.com.
  • Presidio GitHub: Production Deployment Issues - github.com/microsoft/presidio/issues.

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.