Skutečná cena „bezplatné” detekce PII
„Je to zdarma” není analýza nákladů. Je to cena licence — jeden faktor z mnoha.
Microsoft Presidio stojí 0 € ke stažení. Software je open-source. Ale jeho provoz v pojišťovací společnosti stojí v prvním roce přes 13 000 €. Tento rozdíl tvoří strojový čas inženýrů.
Co produkční nasazení vyžaduje
Příprava nástroje na produkci trvá 40–80 hodin. Kam tento čas přichází.
Nastavení Dockeru: 4–8 hodin. Nástroj používá několik kontejnerů. Službu analyzátoru, službu anonymizátoru a volitelný redaktor obrázků. Jejich vzájemné propojení je obtížné. Problémy na GitHubu ukazují, že jde o běžný bod selhání.
Nastavení Pythonu: 2–4 hodiny. Knihovny mají přísná pravidla verzí. Konflikty jsou časté — zejména mezi verzemi modelů spaCy a Pythonem 3.8/3.9/3.10. GitHub eviduje stovky otevřených problémů na toto téma.
Stahování jazykových modelů: 2–4 hodiny. Modely spaCy mají rozsah od 300 MB do 1,4 GB každý. Pětjazyčné nastavení potřebuje 1,5–7 GB úložiště. Selhání načítání modelů patří k nejčastějším problémům podpory.
Vlastní rozpoznávače: 8–16 hodin. Výchozí sada pokrývá přibližně 40 typů entit. Většina jsou americké identifikátory. Evropská nasazení potřebují evropské národní identifikátory. Zdravotnické týmy potřebují formáty zdravotní dokumentace. Každý typ vyžaduje kód v Pythonu, nastavení YAML a testování.
Nastavení API: 4–8 hodin. Produkční konfigurace zahrnuje timeouty, autentizaci, omezení počtu požadavků a logování. Oficiální dokumentace je skromná. Většina týmů nachází odpovědi ve vláknech GitHub Issues.
Auditní logování: 4–8 hodin. GDPR vyžaduje záznamy o zpracování dat. Nástroj nemá ve výchozím stavu auditní log. Týmy ho musí napsat jako vlastní kód.
Týmová dokumentace: 4–8 hodin.
Celkové počáteční nastavení: 28–52 hodin při 100 €/hod = 2 800–5 200 €.
Roční náklady na údržbu
Nástroj vydává aktualizace 2–4krát ročně. Hlavní verze rozbily API. Sledování změn, testování v přípravném prostředí a nasazování vyžaduje průběžné úsilí.
Aktualizace modelů spaCy přidávají práci navíc. Nové verze modelů je třeba znovu stáhnout a zkontrolovat přesnost před nasazením do produkce.
Konflikty závislostí Pythonu se průběžně vracejí. Čisté nastavení dnes může přestat fungovat, když příští měsíc přijde bezpečnostní záplata.
Monitorování je také průběžné. Stav kontejnerů, úniky paměti a kroky restartu vyžadují pravidelnou pozornost. Modely spaCy jsou paměťově náročné.
Celková roční údržba: 60–120 hodin při 100 €/hod = 6 000–12 000 €.
Případová studie z praxe
Complaince tým pojišťovny si předsevzal zpracovat dokumenty o pojistných nárocích. Měli k dispozici dva juniorní datové inženýry a žádnou DevOps podporu.
Týden 1. Dva hlavní kontejnery spolu nefungoval. Tři dny oprav s pomocí GitHubu.
Týden 2. Modely se v produkci nepodařilo načíst. Konfigurace paměti se lišila od vývojového prostředí. Dva dny diagnostiky, jeden den opravy.
Týden 3. Vlastní pravidlo pro britské číslo National Insurance fungovalo v testech, ale v reálných dokumentech generovalo falešně pozitivní výsledky. Ještě dva dny ladění.
Týden 4. Projekt byl eskalován. Stráveny tři inženýrské týdny. Stále v produkci.
Tým pak vyzkoušel anonym.legal. První zpracovaný dokument: 12 minut po registraci. Detekce britského čísla National Insurance byla již zabudována. Žádné nastavení nebylo potřeba.
Přešli na anonym.legal Professional za 180 €/rok.
Celkové náklady vlastnictví (TCO) v prvním roce:
- Vlastní hosting — 40–80 dalších hodin na dokončení, pak 6 000–12 000 €/rok na údržbu. Celkem: 10 000–20 000 €.
- anonym.legal Professional — 180 €/rok. Doba nasazení: ~12 minut.
- Ušetřené inženýrské hodiny: ~132/rok při 100 €/hod = 13 200 €.
To je 70násobný rozdíl nákladů v prvním roce.
Pro týmy čelící také problémům s falešně pozitivními výsledky viz náš příspěvek o problému přesnosti Presidia.
Kdy dává vlastní hosting smysl
Spravovaný SaaS vyhrává pro většinu týmů. Vlastní hosting ale některým případům odpovídá.
Datová suverenita. Některá pravidla nebo smlouvy zakazují odesílání dat mimo vyhrazené prostředí. Naše desktopová aplikace (anonym.plus) funguje plně offline. Data neopustí zařízení. Stejná přesnost, žádný server nepotřeba.
Velmi vysoký objem. Miliony volání API denně mohou posunout cenu za volání nad náklady na server. V tomto měřítku dává smysl vlastnit zásobník.
Integrace do produktu. Pokud budujete detekci PII do vlastního produktu a potřebujete plnou kontrolu? Vlastní open-source práce je zde oprávněná.
Existující DevOps. Týmy s platformovým týmem, který již provozuje mnoho služeb, čelí nižším přidaným nákladům. Infrastruktura je pro ně potopený náklad.
Pro všechny ostatní — compliance týmy, startupy, týmy bez DevOps — je spravovaný SaaS jasnou volbou. Viz náš přehled bezpečnosti a compliance pro to, jak hostované zpracování splňuje podnikové potřeby.
Závěr
Open-source nástroje mají náklady, které se v licenci neobjeví. U tohoto typu nástroje je hlavním nákladem inženýrský čas. Nastavení: 40–80 hodin. Roční údržba: 60–120 hodin. Při běžných sazbách stojí vlastní hosting 20–75× více než spravovaná služba.
Správná otázka nezní „kolik stojí software?” Zní: „kolik stojí jeho provoz?” Pro většinu týmů tato odpověď ukazuje na spravovaný SaaS.
Zdroje
Microsoft Presidio GitHub: Problémy a dokumentace nastavení. OVĚŘENO-EXTERNĚ.
Ploomber: Průvodce produkčním nasazením Presidia. OVĚŘENO-EXTERNĚ.
GDPR článek 32: Technická opatření pro přiměřené zabezpečení. OVĚŘENO-EXTERNĚ.