By · Last updated 2026-06-05

Rudi kwa BlogKitaalamu

Wiki 6 hadi Siku 3: Usanidi wa PII Unaosimamiwa

Timu za SaaS za afya hutumia wiki 6 kwenye utekelezaji wa uzalishaji wa Presidio unaojiendesha kabla ya kubadilisha hadi API inayosimamiwa. API inayosimamiwa inabadilisha utekelezaji.

June 5, 20267 dakika kusoma
managed PII APIPresidio productionPHI anonymizationhealthcare SaaSbuild vs buy

Kutoka Wiki Sita za Maumivu ya DevOps hadi Ujumuishaji wa Siku 3

Imesasishwa kwa 2026.

Wiki sita. Wahandisi wawili. Majaribio manne ya utekelezaji yaliyoshindwa. Timu moja ya SaaS ya afya ilitumia hayo yote kwenye usanidi wa Presidio unaojiendesha. Kisha walihamia kwa API inayosimamiwa. Ubadilishaji ulichukua siku 3.

Lebo ya "bure" kwenye programu ya huru inashawishi. Vivyo hivyo ahadi ya udhibiti kamili. Lakini gharama halisi inaonekana katika masaa ya uhandisi. Si ada za leseni.

Hati za Presidio Hazishughulikii Nini

Hati za Presidio zinashughulikia vizuri usanidi wa ndani. Endesha makontena mawili ya Docker. Elekeza kifaa cha kutoweka kwenye mchambuzi. Inafanya kazi kwenye kompyuta yako ya mezani.

Uzalishaji ni hadithi tofauti.

Kupanua: Presidio ya ndani inaendesha kama mfano mmoja. Uzalishaji unahitaji mifano mingi nyuma ya balansa ya mzigo, ukaguzi wa afya, na kushindwa kwa heshima. Hati za Presidio hazitoi mwongozo juu ya hili. Kila timu hutatua peke yake.

Matumizi ya kumbukumbu: Miundo ya spaCy hupakiwa kwenye RAM kwa kila mfano. Muundo wa en_core_web_lg peke yake ni MB 741. Chini ya shinikizo la kumbukumbu, utendaji hushuka. Kisha mchakato huanguka na kosa la nje ya kumbukumbu. Presidio haina mwongozo wa ndani kwa hili.

Muda wa kuisha: Hati kubwa huchukua muda zaidi. Msimbo wa uzalishaji unahitaji muda wa kuisha unaoweza kusanidiwa, majibu salama ya muda wa kuisha, na mantiki ya kujaribu tena. Hakuna hili linalohifadhiwa katika Presidio.

Kushindwa kupakia muundo: Chini ya usawazishaji wa juu, wafanyakazi wengi wanajaribu kupakia muundo sawa wa spaCy kwa wakati mmoja. Hii ni hali ya mbio. Matokeo ni makosa ya nasibu ya 500 ambayo ni magumu kurudia. Masuala ya GitHub ya Presidio yanaandika hii. Hati kuu hazifanyi hivyo.

Kumbukumbu za ukaguzi: GDPR na HIPAA zinahitaji nyaraka za ukaguzi za usindikaji wa PII. Presidio haina uandishi wa kumbukumbu wa ndani. Kila timu lazima iandike middleware yake mwenyewe.

Utoleshaji wa API: API ya Presidio imebadilika kati ya matoleo. Msimbo uliojengwa kwa Presidio 2.0 unaweza kuhitaji masasisho kwa 2.2 na zaidi. Kuweka toleo husaidia. Lakini huongeza mzigo wake wa matengenezo.

Wiki Sita za Timu ya SaaS ya Afya

Timu hii ilijenga kutoweka kwa PHI kwenye mchakato wa kuexport data ya utafiti.

Wiki ya 1: Walifuata hati za Presidio. Maendeleo ya ndani yalifanya kazi. Utekelezaji wa Kubernetes ulishindwa. Uanzishaji wa pod ulitupa makosa ya kupakia muundo. Timu ilifuatilia masuala ya usanidi wa Kubernetes.

Wiki ya 2: Usanidi wa Kubernetes ulirekebishwa. Kupakia muundo kulifanya kazi wakati mwingine. Chini ya majaribio ya mzigo, takriban 15% ya maombi yalishindwa na muda wa kuisha wa kupakia muundo. Waliongeza mantiki ya kujaribu tena.

Wiki ya 3: Mantiki ya kujaribu tena ilificha suala la msingi lakini ilipita majaribio ya mzigo. Ukaguzi wa utiifu uliomba kumbukumbu za ukaguzi. Timu iliandika middleware ya uandishi wa kumbukumbu maalum.

Wiki ya 4: Aina za vipengele vya afya -- nambari za rekodi za kimatibabu, kitambulisho cha mpango wa afya -- hazikushughulikiwa na chaguo-msingi za Presidio. Timu iliandika vitambulisho viwili maalum.

Wiki ya 5: Walisukuma hadi uzalishaji. Uvujaji wa kumbukumbu ulionekana. Vitu vya muundo wa spaCy vilijengwa kupitia maombi. Timu iliongeza kuanza upya kwa pod kila siku kama njia ya muda.

Wiki ya 6: Uzalishaji ulishindwa chini ya trafiki halisi. Kuanza upya kila siku kulisababisha mapungufu ya huduma. Sababu ya msingi ilikuwa wazi: uvujaji wa kumbukumbu ulihitaji ama muundo mpya mkubwa wa programu au chombo tofauti.

Ukaguzi: Meneja wa uhandisi alihesabu nambari. Wiki sita mara wahandisi wawili sawa na wiki 12 za uhandisi. Utekelezaji ulikuwa hai lakini usio imara. Matengenezo yanayoendelea yalikadiriwa kwa masaa 5 hadi 10 kwa wiki.

Ubadilishaji: Timu ilijaribu API ya anonym.legal. Ufunikaji wa kipengele cha PHI ulifanya kazi nje ya sanduku. Hakuna vitambulisho maalum vilivyohitajika. Uptime uliohakikishiwa na SLA. Uandishi wa kumbukumbu wa ukaguzi umejumuishwa. Ujumuishaji ulichukua siku 3 ukitumia msimbo wao uliopo wa mteja wa API.

Ulinganisho wa gharama:

  • Wiki 12 za uhandisi kwa viwango vya soko vya Marekani: $48,000 hadi $72,000
  • Matengenezo ya kila mwaka yaliyokadiriwa kwa kujiendesha: $25,000 hadi $40,000
  • Mpango wa Biashara wa anonym.legal: €348 kwa mwaka (takriban $385)

API inayosimamiwa inagharimu kidogo zaidi katika wiki yake ya kwanza kuliko ujenzi unaojiendesha uliogharima katika saa yake ya kwanza.

Wakati Data Haiwezi Kuondoka Kwenye Mtandao Wako

Baadhi ya timu za afya haziwezi kutuma data kwa huduma yoyote ya nje. Sheria za kuzuia hewa au sera za uhuru wa data huzuia.

Kwa hali hizi, Programu ya Desktop (anonym.plus) hutoa injini sawa katika usakinishaji wa ndani:

  • Injini sawa ya ugunduzi: Presidio pamoja na XLM-RoBERTa
  • Hakuna simu kwa huduma za nje
  • Usindikaji wa kundi kwa kumbukumbu za kimatibabu na seti za data za utafiti
  • Hakuna usanidi zaidi ya usakinishaji
  • Usimamizi wa muundo wa kiotomatiki

Hii huondoa pingamizi kuu kwa SaaS inayosimamiwa: "data yetu haiwezi kuondoka." Bado inabaki na urahisi unaofanya zana zinazosimamia zinastahili.

Kujenga dhidi ya Kununua: Mfumo Rahisi

Chagua API inayosimamiwa wakati:

  • Timu yako haina wahandisi wa miundombinu waliowekwa
  • Unahitaji kusafirisha kwa siku, si wiki
  • Uptime uliohakikishiwa na SLA ni hitaji
  • Huduma inayosimamiwa inashughulikia aina zako za vipengele
  • Unahitaji kumbukumbu za ukaguzi na rekodi za utiifu zilizojumuishwa

Chagua kujiendesha wakati:

  • Kanuni zinazuzuia data kuondoka kwenye mtandao wako (angalia Programu ya Desktop kwanza)
  • Kiasi chako cha usindikaji kinafanya kujiendesha kuwa bei nafuu kwa kiwango
  • Unahitaji maalum ya kina ambayo API haiwezi kusaidia
  • Una timu ya jukwaa inayotibu hili kama moja ya huduma nyingi zinazosimamwa

Chagua Programu ya Desktop wakati:

  • Usindikaji bila mtandao unahitajika
  • Data ya utafiti wa kimatibabu haiwezi kuondoka mazingira ya kimatibabu
  • Data ya fedha ina vikwazo vya usindikaji wa kijiografia

Hitimisho

Wiki sita za muda wa uhandisi si kasoro ya Presidio. Ni gharama inayotarajiwa ya kuendesha huduma yoyote ya NLP ya uzalishaji peke yako. Kupanua, masuala ya kumbukumbu, kushindwa kupakia muundo, kumbukumbu za ukaguzi, na kazi ya vipengele maalum yote yanajumlika haraka.

API zinazosimamwa zinafyonza gharama hiyo. Kwa kutowekwa kwa PII -- hitaji la utiifu, si kipengele cha bidhaa -- njia inayosimamiwa karibu daima inashinda kwa jumla ya gharama ya umiliki.

Soma jinsi API ya anonym.legal inavyoshughulikia ugunduzi wa PHI. Angalia maelezo kamili ya utiifu katika muhtasari wetu wa usalama. Linganisha mipango kwenye ukurasa wetu wa bei.

Vyanzo

  • Ploomber: Kuzamia Kwa Kina kwa Utekelezaji wa Uzalishaji wa Presidio -- ploomber.io.
  • Jamii ya Microsoft Fabric: Presidio na PySpark -- blog.fabric.microsoft.com.
  • Presidio GitHub: Masuala ya Utekelezaji wa Uzalishaji -- github.com/microsoft/presidio/issues.

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.