By · Last updated 2026-06-05

Bumalik sa BlogTeknikal

Ang Libreng PII Detection ay Nagkakahalaga ng €13K/Taon

Ang self-hosting ng Presidio ay nangangailangan ng 40-80 oras ng paunang setup at 5-10 oras/buwan ng patuloy na maintenance. Sa €100/oras na rate ng inhinyero, iyon ay €13,200+.

June 5, 20267 min basahin
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

Ang Tunay na Gastos ng "Libreng" PII Detection

Ang "Libre ito" ay hindi isang pagsusuri ng gastos. Ito ay isang presyo ng lisensya — isang salik sa marami.

Ang Microsoft Presidio ay nagkakahalaga ng €0 upang i-download. Ang software ay open-source. Ngunit ang pagpapatakbo nito sa isang insurance company ay nagkakahalaga ng mahigit €13,000 sa unang taon. Ang agwat na iyon ay oras ng inhinyero.

Ano ang Kailangan ng Isang Production Deployment

Ang paghahanda ng tool para sa production ay tumatagal ng 40-80 oras. Narito kung saan napupunta ang oras na iyon.

Docker setup: 4-8 oras. Gumagamit ang tool ng ilang container. Isang analyzer service, isang anonymizer service, at isang opsyonal na image redactor. Ang pagpapanatiling magkakausap ng mga ito ay mahirap. Ang mga GitHub issue ay nagpapakita na ito ay isang karaniwang punto ng pagkabigo.

Python setup: 2-4 oras. Ang mga library ay may mahigpit na mga patakaran sa bersyon. Ang mga salungatan ay karaniwan — lalo na sa pagitan ng mga bersyon ng spaCy model at Python 3.8/3.9/3.10. Ang GitHub ay nagpapakita ng daan-daang bukas na isyu sa paksang ito.

Mga pag-download ng language model: 2-4 oras. Ang mga spaCy model ay mula 300 MB hanggang 1.4 GB bawat isa. Ang isang setup na limang wika ay nangangailangan ng 1.5-7 GB ng storage. Ang mga pagkabigo sa pag-load ng model ay kabilang sa mga pinakakaraniwang isyu ng suporta.

Mga custom recognizer: 8-16 oras. Ang default na set ay sumasaklaw sa humigit-kumulang 40 uri ng entity. Karamihan ay mga US identifier. Ang mga EU deployment ay nangangailangan ng mga European national ID. Ang mga healthcare team ay nangangailangan ng mga format ng medical record. Ang bawat uri ay nangangailangan ng Python code, YAML setup, at pagsubok.

API setup: 4-8 oras. Ang production config ay kinabibilangan ng mga timeout, auth, rate limit, at logging. Ang opisyal na mga dokumento ay kulang. Karamihan sa mga koponan ay nakakahanap ng mga sagot sa mga thread ng GitHub issue.

Audit logging: 4-8 oras. Ang GDPR ay nangangailangan ng mga talaan ng pagpoproseso ng data. Ang tool ay walang default na audit log. Ang mga koponan ay kailangang isulat ito bilang custom code.

Dokumentasyon ng koponan: 4-8 oras.

Kabuuang paunang setup: 28-52 oras sa €100/oras = €2,800-5,200.

Mga Taunang Gastos sa Maintenance

Nag-ship ang tool ng 2-4 na update bawat taon. Ang mga major release ay nakasira ng mga API. Ang pananatiling napapanahon ay nangangahulugang pagsubaybay ng mga pagbabago, pagsubok sa staging, at pag-deploy.

Ang mga update ng spaCy model ay nagdaragdag din ng trabaho. Ang mga bagong bersyon ng model ay nangangailangan ng muling pag-download at pagsusuri ng katumpakan bago pumunta sa live.

Patuloy na dumarating ang mga salungatan ng Python dependency. Ang isang malinis na setup ngayon ay maaaring masira kapag ang isang security patch ay napadala sa susunod na buwan.

Ang monitoring ay patuloy din. Ang kalusugan ng container, mga memory leak, at mga hakbang sa pag-restart ay lahat ay nangangailangan ng regular na atensyon. Ang mga spaCy model ay mabigat sa memory.

Kabuuang taunang maintenance: 60-120 oras sa €100/oras = €6,000-12,000.

Isang Totoong Pag-aaral ng Kaso

Isang compliance team sa isang insurance firm ang nagsimulang magproseso ng mga dokumento ng claims. Mayroon silang dalawang junior data engineer at walang suporta mula sa DevOps.

Linggo 1. Hindi makausap ang dalawang pangunahing container. Tatlong araw upang ayusin sa tulong ng GitHub.

Linggo 2. Nabigo ang mga model na mag-load sa production. Ang memory config ay naiiba mula sa dev setup. Dalawang araw para ma-diagnose, isa pa upang ayusin.

Linggo 3. Isang custom na patakaran ng UK National Insurance Number ang gumana sa mga pagsubok ngunit nakakita ng mga false positive sa mga tunay na dokumento. Dalawa pang araw ng pag-tune.

Linggo 4. Na-escalate ang proyekto. Tatlong linggo ng inhinyero ang ginugol. Hindi pa rin nasa production.

Sinubukan ng koponan ang anonym.legal. Unang dokumento na naproseso: 12 minuto pagkatapos ng signup. Ang UK National Insurance Number detection ay nakapaloob na. Walang kailangang setup.

Lumipat sila sa anonym.legal Professional sa €180/taon.

Year-one TCO:

  • Self-hosted path — 40-80 pang oras upang matapos, pagkatapos ay €6,000-12,000/taon upang mapanatili. Kabuuan: €10,000-20,000.
  • anonym.legal Professional — €180/taon. Oras ng pag-deploy: ~12 minuto.
  • Mga oras ng inhinyerong nakatipid: ~132/taon sa €100/oras = €13,200.

Iyon ay isang 70x na agwat ng gastos sa unang taon.

Para sa mga koponan na nakakaranas din ng mga isyu sa false positive, tingnan ang aming post tungkol sa problema ng precision ng Presidio.

Kailan Makatuwiran ang Self-Hosting

Ang managed SaaS ay nananalo para sa karamihan ng mga koponan. Ngunit ang self-hosting ay angkop sa ilang kaso.

Soberanya ng data. Ang ilang mga patakaran o kontrata ay nagbabawal sa pagpapadala ng data sa labas. Ang aming Desktop App (anonym.plus) ay tumatakbo nang ganap na offline. Walang data ang lumalabas sa makina. Parehong katumpakan, walang kailangang server.

Napakalaking volume. Ang milyun-milyong API call bawat araw ay maaaring itulak ang per-call na presyo na mas mataas kaysa sa mga gastos ng server. Sa ganitong sukat, ang pagmamay-ari ng stack ay makatuwiran.

Integrasyon ng produkto. Nagtatayo ng PII detection sa iyong sariling produkto at nangangailangan ng ganap na kontrol? Ang custom open-source na trabaho ay may bisa dito.

Kasalukuyang DevOps. Ang mga koponan na may platform team na nagpapatakbo na ng maraming serbisyo ay nakakaranas ng mas mababang karagdagang gastos. Ang imprastraktura ay isang sunk cost para sa kanila.

Para sa lahat ng iba pa — mga compliance team, startup, mga koponan na walang DevOps — ang managed SaaS ang malinaw na pagpipilian. Tingnan ang aming security compliance overview para sa kung paano natutugunan ng hosted processing ang mga pangangailangan ng enterprise.

Konklusyon

Ang mga open-source na tool ay may mga gastos na hindi lumalabas sa lisensya. Para sa ganitong uri ng tool, ang malaking gastos ay oras ng inhinyero. Setup: 40-80 oras. Taunang pagpapanatili: 60-120 oras. Sa mga normal na rate, ang self-hosted na landas ay nagkakahalaga ng 20-75x kaysa sa isang managed na serbisyo.

Ang tamang tanong ay hindi "magkano ang halaga ng software?" Ito ay "magkano ang halaga ng pagpapatakbo nito?" Para sa karamihan ng mga koponan, ang sagot na iyon ay tumuturo sa managed SaaS.

Mga Pinagkukunan

Microsoft Presidio GitHub: Issues and Setup Documentation. VERIFIED-EXTERNAL.

Ploomber: Presidio Production Deployment Guide. VERIFIED-EXTERNAL.

GDPR Article 32: Technical measures for appropriate security. VERIFIED-EXTERNAL.

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.