"Tasuta" PII tuvastuse tegelik kulu
"See on tasuta" ei ole kuluanalüus. See on litsentsihind - uks tegur paljude hulgas.
Microsoft Presidio maksab allalaadimiseks 0 eurot. Tarkvara on avatud lähtekoodiga. Kuid selle käitamine kindlustusfirmas maksab esimesel aastal üle 13 000 euro. See vahe on inseneritöö aeg.
Mida tootmiskeskkonna juurutamine vajab
Tööriista tootmiseks ettevalmistamine nõuab 40-80 tundi. Siin on, kuhu see aeg läheb.
Dockeri seadistus: 4-8 tundi. Tööriist kasutab mitut konteinerit. Analüsaatori teenus, anonymiseerija teenus ja valikuline pildiredaktor. Nende omavaheline suhtlus on keeruline. GitHubi probleemid näitavad, et see on tavaline ebaõnnestumispunkt.
Pythoni seadistus: 2-4 tundi. Teekidel on ranged versiooninõuded. Konfliktid on tavalised - eriti spaCy mudeli versioonide ja Python 3.8/3.9/3.10 vahel. GitHub näitab sadu avatud probleeme sel teemal.
Keelemudelite allalaadimine: 2-4 tundi. spaCy mudelid ulatuvad 300 MB-st 1,4 GB-ni tükk. Viie keele seadistus vajab 1,5-7 GB salvestusruumi. Mudelite laadimise ebaõnnestumised on ühed levinumad tugiprobleemid.
Kohandatud äratundjad: 8-16 tundi. Vaikimisi komplekt hõlmab umbes 40 üksuse tüüpi. Enamik on USA identifikaatorid. EL-i juurutused vajavad Euroopa riiklikke ID-sid. Tervishoiumeeskonnad vajavad ravimikirje formaate. Iga tüüp vajab Pythoni koodi, YAML-i seadistust ja testimist.
API seadistus: 4-8 tundi. Tootmise konfiguratsioon hõlmab ajalõppe, auth-i, kiiruspiiranguid ja logimist. Ametlikud dokumendid on napid. Enamik meeskondi leiab vastused GitHubi probleemide lõngadest.
Audit-logimine: 4-8 tundi. GDPR nõuab andmetöötluse arvestust. Tööriistal pole vaikimisi audit-logi. Meeskonnad peavad selle kirjutama kohandatud koodina.
Meeskonna dokumendid: 4-8 tundi.
Esialgne seadistus kokku: 28-52 tundi 100 euro/tunnis = 2 800-5 200 eurot.
Aastahoolduse kulud
Tööriist saadab uuendusi 2-4 korda aastas. Suuremad versioonid on rikkunud API-sid. Kursis hoidmine tähendab muutuste jälgimist, lavastuses testimist ja juurutamist.
spaCy mudeli uuendused lisavad ka tööd. Uued mudeliversioonid vajavad uuesti allalaadimist ja täpsuse kontrolli enne live-minekut.
Pythoni sõltuvuste konfliktid jätkuvad. Täna puhas seadistus võib puruneda järgmisel kuul turvapaiga saatmisel.
Jälgimine on pidev. Konteineri tervis, mälulekked ja taaskäivitamise sammud vajavad regulaarset tähelepanu. spaCy mudelid on mälumahukad.
Aastahooldus kokku: 60-120 tundi 100 euro/tunnis = 6 000-12 000 eurot.
Pärismaailma juhtumiuuring
Kindlustusfirma vastavusmeeskond seadis eesmärgiks nõuete dokumentide töötlemise. Neil oli kaks nooremandmeinseneri ja DevOpsi tugi puudus.
1. nädal. Kaks peamist konteinerit ei saanud omavahel rääkida. Kolm päeva parandamiseks GitHubi abil.
2. nädal. Mudelid ei laadinud tootmises. Mälu konfiguratsioon erines arenduse seadistusest. Kaks päeva diagnoosimiseks, veel üks parandamiseks.
3. nädal. Kohandatud Ühendkuningriigi riikliku kindlustuse numbri reegel töötas testides, kuid lõi valepositive'e päris dokumentidel. Veel kaks päeva häälestamist.
4. nädal. Projekt eskaleeriti. Kolm inseneri nädalat kulutatud. Ikka mitte tootmises.
Meeskond proovis seejärel anonym.legal-i. Esimene töödeldud dokument: 12 minutit pärast registreerumist. Ühendkuningriigi riiklik kindlustuse numbri tuvastus oli juba sisse ehitatud. Seadistust pole vaja.
Nad läksid üle anonym.legal Professionalile 180 euro/aastas.
Esimese aasta TCO:
- Isehosting - 40-80 tundi veel lõpetamiseks, siis 6 000-12 000 eurot/aastas hoolduseks. Kokku: 10 000-20 000 eurot.
- anonym.legal Professional - 180 eurot/aastas. Juurutamisaeg: umbes 12 minutit.
- Säästetud inseneritunnid: ~132/aastas 100 euro/tunnis = 13 200 eurot.
See on 70-kordne kuluvahe esimesel aastal.
Meeskondadele, kes seisavad silmitsi ka valepositive'i probleemidega, vaadake meie postitust Presidio täpsusprobleemi kohta.
Millal isehosting on mõttekas
Hallatud SaaS võidab enamiku meeskondade jaoks. Kuid isehosting sobib mõnele juhtumile.
Andmesuveräänsus. Mõned reeglid või lepingud keelavad andmete saatmise väljapoole. Meie töölauarakendus (anonym.plus) töötab täielikult võrguühenduseta. Andmed ei lahku masinast. Sama täpsus, serverit pole vaja.
Väga suur maht. Miljonid API-kutsed päevas võivad tõsta kutse kohta hinnastamise serveri kuludest kõrgemale. Sellisel skaalal on oma pinu omamine mõistlik.
Toote integreerimine. Ehitate PII tuvastust oma tootesse ja vajate täielikku kontrolli? Kohandatud avatud lähtekoodiga töö on siin kehtiv.
Olemasolev DevOps. Meeskonnad, kellel on platvormi meeskond, mis juba käitab paljusid teenuseid, seisavad silmitsi madalama lisakuluga. Infrastruktuur on nende jaoks sunk cost.
Kõigi teiste jaoks - vastavusmeeskonnad, idufirmad, meeskonnad ilma DevOpsita - on hallatud SaaS selge valik. Vaadake meie turvaline vastavuse ülevaadet selle kohta, kuidas hostitud töötlemine vastab ettevõtete vajadustele.
Kokkuvote
Avatud lähtekoodiga tööriistadel on kulud, mis litsentsis ei kajastu. Seda tüüpi tööriista jaoks on suurim kulu inseneritöö aeg. Seadistus: 40-80 tundi. Aastane hooldus: 60-120 tundi. Tavapärastel tariifidel maksab isehosting 20-75 korda rohkem kui hallatud teenus.
Õige küsimus ei ole "kui palju tarkvara maksab?" See on "kui palju selle käitamine maksab?" Enamiku meeskondade jaoks osutab see vastus hallatavale SaaS-ile.
Allikad
Microsoft Presidio GitHub: Probleemid ja seadistuse dokumentatsioon. VERIFIED-EXTERNAL.
Ploomber: Presidio tootmiskeskkonna juurutamise juhend. VERIFIED-EXTERNAL.
GDPR artikkel 32: Tehnilised meetmed sobiva turvalisuse jaoks. VERIFIED-EXTERNAL.