Skutocné náklady na "bezplatnú" detekciu PII
"Je to zadarmo" nie je analýza nákladov. Je to cena licencie — jeden z mnohych faktorov.
Microsoft Presidio stojí 0 EUR na stiahnutie. Softvér je open-source. Ale jeho prevadzkovanie v poisťovni stojí viac ako 13 000 EUR v prvom roku. Tento rozdiel je cas inziniera.
Co potrebuje nasadenie do produkcie
Príprava nástroja na produkciu trvá 40-80 hodín. Tu je rozpis, kam cas idde.
Nastavenie Docker: 4-8 hodín. Nástroj pouÎzíva niekoľko kontajnerov. Sluzba analyzátora, sluzba anonymizátora a volitelny redaktor obrázkov. Ich vzájomná komunikácia je narocná. Problémy na GitHub ukazujú, ze je to casty bod zlyhania.
Nastavenie Python: 2-4 hodiny. KniÍznice majú prísne pravidlá verzií. Konflikty sú casté — najmä medzi verziami modelu spaCy a Python 3.8/3.9/3.10. GitHub zobrazuje stovky otvorených problémov na túto tému.
Stiahnutie jazykových modelov: 2-4 hodiny. Modely spaCy majú velkost od 300 MB do 1,4 GB kazdy. Nastavenie pre 5 jazykov potrebuje 1,5-7 GB ulozného priestoru. Chyby pri nacítaní modelu patria medzi najcastejšie problémy podpory.
Vlastné rozpoznávace: 8-16 hodín. Predvolená sada pokryva asi 40 typov entít. Vacsina sú identifikátory USA. Nasadenia v EÚ potrebujú európske národné identifikacné císla. Tímy v zdravotníctve potrebujú formáty zdravotnych záznamov. Kazdy typ potrebuje kód Python, nastavenie YAML a testovanie.
Nastavenie API: 4-8 hodín. Produkcioná konfigurácia zahŕna casové limity, autentifikáciu, limity rýchlosti a logovanie. Oficiálna dokumentácia je strohá. Vacsina tímov nacháza odpovede vo vláknach problémov na GitHub.
Logovanie auditov: 4-8 hodín. GDPR vyzaduje záznamy o spracovaní dat. Nástroj predvolene nemá audit log. Tímy ho musia napísat ako vlastný kód.
Dokumentácia tímu: 4-8 hodín.
Celkové pociatocné nastavenie: 28-52 hodín pri 100 EUR/hod = 2 800-5 200 EUR.
Rocné náklady na údrzbu
Nástroj vydáva aktualizácie 2-4-krát rocne. Hlavné vydania prerušili API. Udrzovanie kroku znamená sledovanie zmien, testovanie v stagingu a nasadzovanie.
Aktualizácie modelu spaCy pridávajú dalšiu prácu. Nové verzie modelov treba znovu stiahnut a skontrolovat presnost pred spustením do prevádzky.
Konflikty závislostí Pythonu pokracujú. Cistá inštalácia dnes môze mat problém, ked zajtra príde bezpecnostná záplata.
Monitorovanie je taktiez priebezné. Zdravotny stav kontajnerov, úniky pamate a kroky reštartu si vyzadujú pravidelnú pozornost. Modely spaCy su pamatovo narocné.
Celková rocná údrzba: 60-120 hodín pri 100 EUR/hod = 6 000-12 000 EUR.
Prípadová štúdia z praxe
Tím zodpovedny za súlad v poisťovni sa rozhodol spracovávat dokumenty o poistnych udalostiach. Mali dvoch junior dátovych inzinierov a ziadnu DevOps podporu.
1. tyzden. Dva hlavné kontajnery nemohli komunikovat. Tri dni na opravu s pomocou GitHubu.
2. tyzden. Modely sa nepodarilo nacítat v produkcii. Konfigurácia pamate bola odlišná od vývojového nastavenia. Dva dni diagnózy, další den opravy.
3. tyzden. Vlastné pravidlo pre britské Nationale Insurance Number fungovalo v testoch, ale spôsobovalo falošné poplachy pri skutocnych dokumentoch. Dalšie dva dni ladenia.
4. tyzden. Projekt bol eskalovaný. Prešli tri inzinierske tyzdne. Stale nie v produkcii.
Tím potom vyskúšal anonym.legal. Prvý dokument bol spracovany 12 minút po registrácii. Detekcia britského National Insurance Number bola uz zabudovaná. Ziadne nastavenie nebolo potrebné.
Prešli na anonym.legal Professional za 180 EUR/rok.
Celkové náklady vlastníctva v prvom roku (TCO):
- Vlastnohodená cesta — 40-80 dalších hodín na dokoncenie, potom 6 000-12 000 EUR/rok na údrzbu. Celkovo: 10 000-20 000 EUR.
- anonym.legal Professional — 180 EUR/rok. Cas nasadenia: ~12 minút.
- Ušetrené inzinierske hodiny: ~132/rok pri 100 EUR/hod = 13 200 EUR.
To je 70-násobny rozdiel nákladov v prvom roku.
Pre tímy celjúce aj problémom s falošnymi poplachmi pozri náš príspevok o probléme presnosti Presidio.
Kedy má zmysel vlastné hosťovanie
Spravovaný SaaS vyhráva pre vacsinu tímov. Ale vlastné hosťovanie sa hodí v niektorych prípadoch.
Dátová suverenita. Niektoré pravidlá alebo zmluvy zakazujú odosielanie dát von. Naša desktopová aplikácia (anonym.plus) beží plne offline. Ziadne dáta neopustia zariadenie. Rovnaká presnost, bez potreby servera.
Velmi vysoky objem. Milióny volání API denne môzu potlacit cenovanie za volanie nad náklady na server. V takomto meradle má zmysel vlastnit zásobník.
Integrácia do produktu. Budujete detekciu PII do vlastného produktu a potrebujete plnú kontrolu? Vlastná práca na open-source je tu platná.
Existujúci DevOps. Tímy s platformovym tímom, ktory uz prevadzKuje mnoho sluzieb, celía nizším pridanym nákladom. Infraštruktúra je pre ne topeny náklad.
Pre všetkych ostatnych — tímy súladu, startupy, tímy bez DevOps — je spravovany SaaS jasnou volbou. Pozrite si náš prehlad súladu bezpecnosti, ako hosťované spracovanie splna podnikové potreby.
Záver
Open-source nástroje majú náklady, ktore sa neobjavujú v licencii. Pre tento typ nástroja je hlavnym nákladom cas inziniera. Nastavenie: 40-80 hodín. Rocná údrzba: 60-120 hodín. Pri beinznych sadzbách stojí vlastnohodená cesta 20-75-krát viac ako spravovaná sluzba.
Spravná otázka nie je "Colko stojí softvér?" Je to: "Co stojí jeho prevádzkovanie?" Pre vacsinu tímov táto odpoved ukazuje na spravovany SaaS.
Zdroje
Microsoft Presidio GitHub: Problémy a dokumentácia nastavenia.
Ploomber: Pruvodca nasadením Presidio do produkcie.
GDPR clanok 32: Technické opatrenia pre primeranú bezpecnost.