Reālās "bezmaksas" PII noteikšanas izmaksas
"Tas ir bezmaksas" nav izmaksu analīze. Tā ir licences cena — viens faktors no daudziem.
Microsoft Presidio lejupielāde izmaksā 0 EUR. Programmatūra ir atvērtā pirmkoda. Taču tā darbināšana apdrošināšanas uzņēmumā pirmajā gadā izmaksā vairāk nekā 13 000 EUR. Šī starpība ir inženieru laiks.
Kas nepieciešams ražošanas izvietošanai
Rīka sagatavošana ražošanai aizņem 40–80 stundas. Lūk, kur tiek tērēts šis laiks.
Docker iestatīšana: 4–8 stundas. Rīks izmanto vairākus konteinerus. Analizatora pakalpojums, anonimizatora pakalpojums un izvēles attēlu redaktors. Panākt, lai tie sazinātos savā starpā, ir grūti. GitHub problēmas rāda, ka tas ir izplatīts kļūmes punkts.
Python iestatīšana: 2–4 stundas. Bibliotēkām ir strikti versiju noteikumi. Konflikti ir izplatīti — jo īpaši starp spaCy modeļu versijām un Python 3.8/3.9/3.10. GitHub rāda simtiem atvērtu problēmu par šo tēmu.
Valodu modeļu lejupielāde: 2–4 stundas. spaCy modeļi svara no 300 MB līdz 1,4 GB katrs. Piecu valodu iestatīšanai nepieciešams 1,5–7 GB krātuve. Modeļu ielādes kļūmes ir vienas no visizplatītākajām atbalsta problēmām.
Pielāgoti atpazinēji: 8–16 stundas. Noklusējuma kopa aptver aptuveni 40 entītiju tipus. Lielākā daļa ir ASV identifikatori. ES izvietošanai nepieciešami Eiropas nacionālie ID. Veselības aprūpes komandām nepieciešami medicīnisko ierakstu formāti. Katrs veids prasa Python kodu, YAML iestatīšanu un testēšanu.
API iestatīšana: 4–8 stundas. Ražošanas konfigurācija ietver taimauti, autentifikāciju, ātruma ierobežojumus un žurnālu reģistrēšanu. Oficiālā dokumentācija ir vāja. Lielākā daļa komandu atradnes atrod GitHub problēmu pavedienos.
Audita žurnālu reģistrēšana: 4–8 stundas. GDPR prasa datu apstrādes ierakstus. Rīkam pēc noklusējuma nav audita žurnāla. Komandām tas jāraksta kā pielāgots kods.
Komandas dokumentācija: 4–8 stundas.
Kopējā sākotnējā iestatīšana: 28–52 stundas pie 100 EUR/stundā = 2 800–5 200 EUR.
Gada uzturēšanas izmaksas
Rīks piegādā atjauninājumus 2–4 reizes gadā. Lielākie izlaidumi ir pārkāpuši API. Sekošana līdzi nozīmē izmaiņu izsekošanu, testēšanu uzstādīšanas vidē un izvietošanu.
spaCy modeļu atjauninājumi pievieno papildu darbu. Jauno modeļu versiju pirms pārejas uz dzīvo vidi ir jālejupielādē un jāpārbauda precizitāte.
Python atkarību konflikti turpinās. Šodien tīra iestatīšana var sabojāties, kad nākammēnes tiek piegādāts drošības ielāps.
Monitorings arī ir pastāvīgs. Konteineru veselība, atmiņas noplūdes un restartēšanas soļi visi prasa regulāru uzmanību. spaCy modeļi ir atmiņā ietilpīgi.
Kopējā gada uzturēšana: 60–120 stundas pie 100 EUR/stundā = 6 000–12 000 EUR.
Reālās pasaules gadījuma izpēte
Apdrošināšanas uzņēmuma atbilstības komanda nolēma apstrādāt prasību dokumentus. Viņiem bija divi junior datu inženieri un neviens DevOps atbalsts.
1. nedēļa. Divi galvenie konteineri nevarēja sazināties. Trīs dienas, lai labotu ar GitHub palīdzību.
2. nedēļa. Modeli ielādēties ražošanā neizdevās. Atmiņas konfigurācija atšķīrās no izstrādes iestatīšanas. Divas dienas diagnosticēšanai, vēl viena labošanai.
3. nedēļa. Pielāgota Lielbritānijas Nacionālās apdrošināšanas numura kārtula darbojās testos, bet reālos dokumentos saskārās ar viltus pozitīviem rezultātiem. Vēl divas dienas regulēšanai.
4. nedēļa. Projekts tika eskalēts. Trīs inženieru nedēļas pavadītas. Vēl nav ražošanā.
Komanda pēc tam izmēģināja anonym.legal. Pirmais apstrādātais dokuments: 12 minūtes pēc reģistrācijas. Lielbritānijas Nacionālās apdrošināšanas numura noteikšana jau bija iebūvēta. Iestatīšana nebija nepieciešama.
Viņi pārgāja uz anonym.legal Professional par 180 EUR/gadā.
Pirmā gada TCO:
- Pašhostēta ceļš — vēl 40–80 stundas pabeigšanai, tad 6 000–12 000 EUR/gadā uzturēšanai. Kopā: 10 000–20 000 EUR.
- anonym.legal Professional — 180 EUR/gadā. Izvietošanas laiks: ~12 minūtes.
- Ietaupītās inženieru stundas: ~132/gadā pie 100 EUR/stundā = 13 200 EUR.
Tas ir 70x izmaksu starpība pirmajā gadā.
Komandām, kas arī saskaras ar viltus pozitīvo rezultātu problēmām, skatiet mūsu ierakstu par Presidio precizitātes problēmu.
Kad pašhostēšana ir jēgpilna
Pārvaldītais SaaS uzvar lielākajai daļai komandu. Taču pašhostēšana der dažos gadījumos.
Datu suverenitāte. Daži noteikumi vai līgumi aizliedz datu nosūtīšanu ārpus valsts. Mūsu darbvirsmas lietotne (anonym.plus) darbojas pilnībā bezsaistē. Dati neatstāj iekārtu. Tāda pati precizitāte, serveris nav nepieciešams.
Ļoti liels apjoms. Miljoniem API izsaukumu dienā var paaugstināt cenu par izsaukumu virs serveru izmaksām. Tādā mērogā steka pārvaldīšana ir jēgpilna.
Produkta integrācija. Vai veidojat PII noteikšanu savā produktā un nepieciešama pilna kontrole? Pielāgots atvērtā pirmkoda darbs šeit ir pamatots.
Esošais DevOps. Komandām ar platformas komandu, kas jau pārvalda daudzus pakalpojumus, ir zemākas papildu izmaksas. Infrastruktūra ir viņiem jau segta izmaksa.
Visiem pārējiem — atbilstības komandām, jaunuzņēmumiem, komandām bez DevOps — pārvaldītais SaaS ir skaidra izvēle. Skatiet mūsu drošības atbilstības pārskatu, lai uzzinātu, kā hostēta apstrāde atbilst uzņēmuma vajadzībām.
Secinājums
Atvērtā pirmkoda rīkiem ir izmaksas, kas nelicences cenā neparādās. Šāda veida rīkam lielākā izmaksa ir inženieru laiks. Iestatīšana: 40–80 stundas. Gada uzturēšana: 60–120 stundas. Pie normālām likmēm pašhostēta ceļš izmaksā 20–75x vairāk nekā pārvaldīts pakalpojums.
Pareizais jautājums nav "cik maksā programmatūra?" Tas ir "cik maksā tās darbināšana?" Lielākajai daļai komandu šī atbilde norāda uz pārvaldītu SaaS.
Avoti
Microsoft Presidio GitHub: Problēmas un iestatīšanas dokumentācija. PĀRBAUDĪTS-ĀRĒJS.
Ploomber: Presidio ražošanas izvietošanas rokasgrāmata. PĀRBAUDĪTS-ĀRĒJS.
GDPR 32. pants: Tehniskie pasākumi atbilstošai drošībai. PĀRBAUDĪTS-ĀRĒJS.