Pravi trosak "besplatne" detekcije PII
"Besplatno je" nije analiza troskova. To je cena licence - jedan faktor medu mnogima.
Microsoft Presidio kosta 0 EUR za preuzimanje. Softver je open-source. Ali njegovo pokretanje u osiguravajucoj kompaniji kosta vise od 13.000 EUR u prvoj godini. Taj jaz je inzenjersko vreme.
Sta treba produkcionom deploymentu
Pripremanje alata za produkciju zahteva 40-80 sati. Evo gde to vreme odlazi.
Docker podesavanje: 4-8 sati. Alat koristi nekoliko kontejnera. Servis za analizu, servis za anonimizaciju i opcioni redaktor slika. Nateravanje ih da komuniciraju je tesko. GitHub problemi pokazuju da je to cesta tacka pada.
Python podesavanje: 2-4 sata. Biblioteke imaju stroga pravila verzija. Konflikti su cesti - posebno izmedju verzija spaCy modela i Python-a 3.8/3.9/3.10. GitHub prikazuje stotine otvorenih problema na ovu temu.
Preuzimanje jezickih modela: 2-4 sata. spaCy modeli se krecu od 300 MB do 1,4 GB svaki. Podesavanje sa pet jezika zahteva 1,5-7 GB prostora. Greske u ucitavanju modela su medu najcescim problemima podrske.
Prilagodjeni prepoznavaci: 8-16 sati. Podrazumevani skup pokriva oko 40 tipova entiteta. Vecina su US identifikatori. EU deployments-i trebaju evropske nacionalne ID-ove. Zdravstveni timovi trebaju formate medicinskih kartona. Svaki tip treba Python kod, YAML podesavanje i testiranje.
API podesavanje: 4-8 sati. Produkciiona konfiguracija ukljucuje tajmaute, autentikaciju, ogranicenja brzine i logovanje. Zvanicna dokumentacija je oskudna. Vecina timova pronalazi odgovore u GitHub nitima problema.
Revizijsko logovanje: 4-8 sati. GDPR zahteva evidenciju obrade podataka. Alat nema podrazumevano revizijsko logovanje. Timovi ga moraju pisati kao prilagodjeni kod.
Dokumentacija tima: 4-8 sati.
Ukupno pocetno podesavanje: 28-52 sata po 100 EUR/sat = 2.800-5.200 EUR.
Godisnji troskovi odrzavanja
Alat isporucuje azuriranja 2-4 puta godisnje. Velike verzije su rusile API-je. Pracenje promena, testiranje u stagingu i deployment zahtevaju trud.
Azuriranja spaCy modela takodje dodaju posao. Nove verzije modela trebaju ponovo preuzimanje i proveru tacnosti pre pustanja u produkciju.
Konflikti Python zavisnosti nastavljaju se javljati. Cisto podesavanje danas moze da se pokvari kada stize bezbednosna zakrpa sledeceg meseca.
Monitoring je takodje tekuci. Zdravlje kontejnera, curenja memorije i koraci ponovnog pokretanja zahtevaju redovnu paznju. spaCy modeli su memorijski zahtevni.
Ukupno godisnje odrzavanje: 60-120 sati po 100 EUR/sat = 6.000-12.000 EUR.
Studija slucaja iz stvarnog sveta
Komplajans tim u osiguravajucoj kompaniji krenuo je da obradjuje dokumente o potrazbinama. Imali su dva mlada data inzenjera i bez DevOps podrske.
Nedelja 1. Dva glavna kontejnera nisu mogla da komuniciraju. Tri dana za popravku uz pomoc sa GitHub-a.
Nedelja 2. Modeli nisu uspevali da se ucitaju u produkciji. Konfiguracija memorije je bila razlicita od podesavanja u dev okruzenju. Dva dana za dijagnozu, jos jedan za popravku.
Nedelja 3. Prilagodjeno pravilo za UK National Insurance Number radilo je u testovima, ali je dalo lazne pozitive na stvarnim dokumentima. Jos dva dana podesavanja.
Nedelja 4. Projekat je eskaliran. Potrosene su tri inzenjerske nedelje. Jos uvek nije u produkciji.
Tim je zatim isprobao anonym.legal. Prvo obradjeni dokument: 12 minuta posle registracije. Detekcija UK National Insurance Number je vec bila ugradjena. Podesavanje nije bilo potrebno.
Presli su na anonym.legal Professional za 180 EUR/godisnje.
TCO za prvu godinu:
- Put sa sopstvenim hostovanjem - 40-80 sati vise za dovrsavanje, zatim 6.000-12.000 EUR/godisnje za odrzavanje. Ukupno: 10.000-20.000 EUR.
- anonym.legal Professional - 180 EUR/godisnje. Vreme deploymenta: ~12 minuta.
- Usteda inzenjerskih sati: ~132/godisnje po 100 EUR/sat = 13.200 EUR.
To je 70x jaz u troskovima u prvoj godini.
Za timove koji se takodje suocavaju sa problemima laznih pozitiva, pogledajte nas clanak o Presidio-vom problemu preciznosti.
Kada sopstveno hostovanje ima smisla
Upravjani SaaS pobjedjuje za vecinu timova. Ali sopstveno hostovanje odgovara nekim slucajevima.
Suverenost podataka. Neka pravila ili ugovori zabranjuju slanje podataka napolje. Nasa Desktop aplikacija (anonym.plus) radi potpuno offline. Nijedan podatak ne napusta masinu. Ista tacnost, bez servera.
Veoma visok obim. Milioni API poziva dnevno mogu da gurnu cenu po pozivu iznad troskova servera. U tom obimu, posedovanje steka ima smisla.
Integracija u proizvod. Gradite detekciju PII u sopstveni proizvod i trebate potpunu kontrolu? Prilagodjeni open-source rad je ovde validan.
Postojeci DevOps. Timovi sa platformskim timom koji vec pokrece mnoge servise nose nize dodane troskove. Infrastruktura je za njih potopljeni trosak.
Za sve ostale - komplajans timove, startup-e, timove bez DevOps-a - upravljani SaaS je jasan izbor. Pogledajte nas pregled bezbednosti i uskladjenosti za to kako hostovana obrada ispunjava potrebe preduzeca.
Zakljucak
Open-source alati imaju troskove koji se ne vide u licenci. Za ovaj tip alata, veliki trosak je inzenjersko vreme. Podesavanje: 40-80 sati. Godisnje odrzavanje: 60-120 sati. Po normalnim stopama, put sopstvenog hostovanja kosta 20-75x vise od upravljanog servisa.
Pravo pitanje nije "sta softver kosta?" Nego "sta njegovo pokretanje kosta?" Za vecinu timova, taj odgovor ukazuje na upravljani SaaS.
Izvori
Microsoft Presidio GitHub: Issues and Setup Documentation. VERIFIED-EXTERNAL.
Ploomber: Presidio Production Deployment Guide. VERIFIED-EXTERNAL.
GDPR Article 32: Technical measures for appropriate security. VERIFIED-EXTERNAL.