By · Last updated 2026-06-05

Zpět na blogTechnické

„Zdarma” PII detekce vás stojí 13 000 € ročně

Vlastní provoz Presidia vyžaduje 40–80 hodin počátečního nastavení a 5–10 hodin měsíční údržby. Při hodinové sazbě inženýra 100 € to představuje 13 200 € a více.

June 5, 20267 min čtení
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

Skutečná cena „bezplatné” detekce PII

„Je to zdarma” není analýza nákladů. Je to cena licence — jeden faktor z mnoha.

Microsoft Presidio stojí 0 € ke stažení. Software je open-source. Ale jeho provoz v pojišťovací společnosti stojí v prvním roce přes 13 000 €. Tento rozdíl tvoří strojový čas inženýrů.

Co produkční nasazení vyžaduje

Příprava nástroje na produkci trvá 40–80 hodin. Kam tento čas přichází.

Nastavení Dockeru: 4–8 hodin. Nástroj používá několik kontejnerů. Službu analyzátoru, službu anonymizátoru a volitelný redaktor obrázků. Jejich vzájemné propojení je obtížné. Problémy na GitHubu ukazují, že jde o běžný bod selhání.

Nastavení Pythonu: 2–4 hodiny. Knihovny mají přísná pravidla verzí. Konflikty jsou časté — zejména mezi verzemi modelů spaCy a Pythonem 3.8/3.9/3.10. GitHub eviduje stovky otevřených problémů na toto téma.

Stahování jazykových modelů: 2–4 hodiny. Modely spaCy mají rozsah od 300 MB do 1,4 GB každý. Pětjazyčné nastavení potřebuje 1,5–7 GB úložiště. Selhání načítání modelů patří k nejčastějším problémům podpory.

Vlastní rozpoznávače: 8–16 hodin. Výchozí sada pokrývá přibližně 40 typů entit. Většina jsou americké identifikátory. Evropská nasazení potřebují evropské národní identifikátory. Zdravotnické týmy potřebují formáty zdravotní dokumentace. Každý typ vyžaduje kód v Pythonu, nastavení YAML a testování.

Nastavení API: 4–8 hodin. Produkční konfigurace zahrnuje timeouty, autentizaci, omezení počtu požadavků a logování. Oficiální dokumentace je skromná. Většina týmů nachází odpovědi ve vláknech GitHub Issues.

Auditní logování: 4–8 hodin. GDPR vyžaduje záznamy o zpracování dat. Nástroj nemá ve výchozím stavu auditní log. Týmy ho musí napsat jako vlastní kód.

Týmová dokumentace: 4–8 hodin.

Celkové počáteční nastavení: 28–52 hodin při 100 €/hod = 2 800–5 200 €.

Roční náklady na údržbu

Nástroj vydává aktualizace 2–4krát ročně. Hlavní verze rozbily API. Sledování změn, testování v přípravném prostředí a nasazování vyžaduje průběžné úsilí.

Aktualizace modelů spaCy přidávají práci navíc. Nové verze modelů je třeba znovu stáhnout a zkontrolovat přesnost před nasazením do produkce.

Konflikty závislostí Pythonu se průběžně vracejí. Čisté nastavení dnes může přestat fungovat, když příští měsíc přijde bezpečnostní záplata.

Monitorování je také průběžné. Stav kontejnerů, úniky paměti a kroky restartu vyžadují pravidelnou pozornost. Modely spaCy jsou paměťově náročné.

Celková roční údržba: 60–120 hodin při 100 €/hod = 6 000–12 000 €.

Případová studie z praxe

Complaince tým pojišťovny si předsevzal zpracovat dokumenty o pojistných nárocích. Měli k dispozici dva juniorní datové inženýry a žádnou DevOps podporu.

Týden 1. Dva hlavní kontejnery spolu nefungoval. Tři dny oprav s pomocí GitHubu.

Týden 2. Modely se v produkci nepodařilo načíst. Konfigurace paměti se lišila od vývojového prostředí. Dva dny diagnostiky, jeden den opravy.

Týden 3. Vlastní pravidlo pro britské číslo National Insurance fungovalo v testech, ale v reálných dokumentech generovalo falešně pozitivní výsledky. Ještě dva dny ladění.

Týden 4. Projekt byl eskalován. Stráveny tři inženýrské týdny. Stále v produkci.

Tým pak vyzkoušel anonym.legal. První zpracovaný dokument: 12 minut po registraci. Detekce britského čísla National Insurance byla již zabudována. Žádné nastavení nebylo potřeba.

Přešli na anonym.legal Professional za 180 €/rok.

Celkové náklady vlastnictví (TCO) v prvním roce:

  • Vlastní hosting — 40–80 dalších hodin na dokončení, pak 6 000–12 000 €/rok na údržbu. Celkem: 10 000–20 000 €.
  • anonym.legal Professional — 180 €/rok. Doba nasazení: ~12 minut.
  • Ušetřené inženýrské hodiny: ~132/rok při 100 €/hod = 13 200 €.

To je 70násobný rozdíl nákladů v prvním roce.

Pro týmy čelící také problémům s falešně pozitivními výsledky viz náš příspěvek o problému přesnosti Presidia.

Kdy dává vlastní hosting smysl

Spravovaný SaaS vyhrává pro většinu týmů. Vlastní hosting ale některým případům odpovídá.

Datová suverenita. Některá pravidla nebo smlouvy zakazují odesílání dat mimo vyhrazené prostředí. Naše desktopová aplikace (anonym.plus) funguje plně offline. Data neopustí zařízení. Stejná přesnost, žádný server nepotřeba.

Velmi vysoký objem. Miliony volání API denně mohou posunout cenu za volání nad náklady na server. V tomto měřítku dává smysl vlastnit zásobník.

Integrace do produktu. Pokud budujete detekci PII do vlastního produktu a potřebujete plnou kontrolu? Vlastní open-source práce je zde oprávněná.

Existující DevOps. Týmy s platformovým týmem, který již provozuje mnoho služeb, čelí nižším přidaným nákladům. Infrastruktura je pro ně potopený náklad.

Pro všechny ostatní — compliance týmy, startupy, týmy bez DevOps — je spravovaný SaaS jasnou volbou. Viz náš přehled bezpečnosti a compliance pro to, jak hostované zpracování splňuje podnikové potřeby.

Závěr

Open-source nástroje mají náklady, které se v licenci neobjeví. U tohoto typu nástroje je hlavním nákladem inženýrský čas. Nastavení: 40–80 hodin. Roční údržba: 60–120 hodin. Při běžných sazbách stojí vlastní hosting 20–75× více než spravovaná služba.

Správná otázka nezní „kolik stojí software?” Zní: „kolik stojí jeho provoz?” Pro většinu týmů tato odpověď ukazuje na spravovaný SaaS.

Zdroje

Microsoft Presidio GitHub: Problémy a dokumentace nastavení. OVĚŘENO-EXTERNĚ.

Ploomber: Průvodce produkčním nasazením Presidia. OVĚŘENO-EXTERNĚ.

GDPR článek 32: Technická opatření pro přiměřené zabezpečení. OVĚŘENO-EXTERNĚ.

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.