Tikroji 'nemokamo' PII aptikimo kaina
'Tai nemokama' -- tai ne išlaidų analizė. Tai licencijos kaina -- vienas iš daugelio veiksnių.
Microsoft Presidio kainuoja 0 EUR parsisiuntimui. Programinė įranga yra atvirojo kodo. Tačiau ją paleidžiant draudimo kompanijoje pirmaisiais metais kainuoja daugiau nei 13 000 EUR. Ta spraga yra inžinerijos laikas.
Ko reikia gamybos diegimui
Įrankio paruošimas gamybai užima 40–80 valandų. Štai kur tas laikas eina.
Docker diegimas: 4–8 valandos. Įrankis naudoja kelis konteinerius. Analizatoriaus paslauga, anonimiškumo užtikrinimo paslauga ir pasirinktinis vaizdo redaktorius. Jas sujungti sunku. GitHub klausimai rodo, kad tai yra dažna nesėkmės vieta.
Python diegimas: 2–4 valandos. Bibliotekos turi griežtas versijų taisykles. Konfliktai yra įprasti -- ypač tarp spaCy modelių versijų ir Python 3.8/3.9/3.10. GitHub rodo šimtus atvirų klausimų šia tema.
Kalbos modelių atsisiuntimai: 2–4 valandos. spaCy modeliai sveria nuo 300 MB iki 1,4 GB kiekvienam. Penkių kalbų diegimui reikia 1,5–7 GB saugyklos. Modelių įkėlimo nesėkmės yra vienos iš dažniausių palaikymo problemų.
Pasirinktiniai atpažintuvai: 8–16 valandų. Numatytasis rinkinys apima apie 40 objektų tipų. Dauguma yra JAV identifikatoriai. ES diegimams reikalingi Europos šalių ID. Sveikatos priežiūros komandoms reikalingi medicinos įrašų formatai. Kiekvienas tipas reikalauja Python kodo, YAML diegimo ir testavimo.
API diegimas: 4–8 valandos. Gamybos konfigūracija apima laiko limitus, autentifikavimą, greičio apribojimus ir žurnalus. Oficiali dokumentacija yra menka. Dauguma komandų randa atsakymus GitHub klausimų gijose.
Audito žurnalavimas: 4–8 valandos. BDAR reikalauja duomenų apdorojimo įrašų. Įrankis pagal nutylėjimą neturi audito žurnalo. Komandos turi jį parašyti kaip pasirinktinį kodą.
Komandos dokumentacija: 4–8 valandos.
Iš viso pradinis diegimas: 28–52 valandos po 100 EUR/val. = 2 800–5 200 EUR.
Metinės priežiūros išlaidos
Įrankis siunčia atnaujinimus 2–4 kartus per metus. Pagrindiniai leidimai sulaužė API. Neatsilikimas reiškia keitimų stebėjimą, testavimą paruošamojoje aplinkoje ir diegimą.
spaCy modelių atnaujinimai taip pat prideda darbo. Naujų modelių versijų reikia parsisiųsti iš naujo ir patikrinti tikslumą prieš paleičiant.
Python priklausomybių konfliktai tęsiasi. Šiandien švari diegimas gali sulaužyti, kai kitą mėnesį bus išleistas saugos pleistras.
Stebėjimas taip pat yra nuolatinis. Konteinerio sveikata, atminties nutekėjimai ir paleidimo iš naujo žingsniai -- visa tai reikalauja reguliaraus dėmesio. spaCy modeliai reikalauja daug atminties.
Iš viso metinė priežiūra: 60–120 valandų po 100 EUR/val. = 6 000–12 000 EUR.
Realaus pasaulio atvejo analizė
Draudimo įmonės atitikties komanda ėmėsi apdoroti pretenzijų dokumentus. Turėjo du jaunesnius duomenų inžinierius ir jokio DevOps palaikymo.
1 savaitė. Du pagrindiniai konteineriai negalėjo bendrauti. Tris dienas taisė su GitHub pagalba.
2 savaitė. Modeliai nepavyko įkelti gamyboje. Atminties konfigūracija skyrėsi nuo kūrimo aplinkos. Dvi dienos diagnozei, dar viena taisymui.
3 savaitė. Pasirinktinė JK nacionalinio draudimo numerio taisyklė veikė testuose, bet tikruose dokumentuose davė klaidingai teigiamų. Dar dvi dienos derinimo.
4 savaitė. Projektas buvo eskaluotas. Praleistos trys inžinerijos savaitės. Vis dar ne gamyboje.
Komanda tada išbandė anonym.legal. Pirmas apdorotas dokumentas: 12 minučių po registracijos. JK nacionalinio draudimo numerio aptikimas jau buvo įdiegtas. Jokio diegimo nereikėjo.
Jie perėjo prie anonym.legal Professional už 180 EUR per metus.
Pirmų metų TCO:
- Savęs talpinimo kelias -- 40–80 daugiau valandų pabaigimui, tada 6 000–12 000 EUR per metus priežiūrai. Iš viso: 10 000–20 000 EUR.
- anonym.legal Professional -- 180 EUR per metus. Diegimo laikas: ~12 minučių.
- Sutaupytos inžinerijos valandos: ~132 per metus po 100 EUR/val. = 13 200 EUR.
Tai 70 kartų išlaidų skirtumas pirmaisiais metais.
Komandoms, taip pat susidūrusioms su klaidingai teigiamų problemomis, žr. mūsų įrašą apie Presidio tikslumo problemą.
Kada savęs talpinimas turi prasmę
Valdoma SaaS laimi daugumai komandų. Tačiau savęs talpinimas tinka kai kuriems atvejams.
Duomenų suverenumas. Kai kurios taisyklės ar sutartys draudžia siųsti duomenis išorėn. Mūsų darbalaukio programa (anonym.plus) veikia visiškai neprisijungusi. Jokie duomenys nepalieka mašinos. Tas pats tikslumas, jokio serverio nereikia.
Labai didelis apimtis. Milijonai API iškvietimų per dieną gali viršyti vieno kvietime pagrįstą kainodarą, palyginti su serverio išlaidomis. Tokiu mastu savo paketo turėjimas yra pagrįstas.
Produkto integracija. Jei kuriate PII aptikimą į savo produktą ir jums reikalinga visa kontrolė -- tai pagrįstas atvirojo kodo individualus darbas.
Esama DevOps infrastruktūra. Komandos, turinčios platformos komandą, jau valdančią daugelį paslaugų, susiduria su mažesnėmis papildomomis išlaidomis. Infrastruktūra jiems yra patirtos išlaidos.
Visiems kitiems -- atitikties komandoms, pradedančiosioms įmonėms, komandoms be DevOps -- valdoma SaaS yra akivaizdus pasirinkimas. Žr. mūsų saugos atitikties apžvalgą apie tai, kaip talpinamas apdorojimas atitinka įmonių poreikius.
Išvada
Atvirojo kodo įrankiai turi išlaidų, kurios nematyti licencijoje. Šiam įrankio tipui didžiausia išlaidų dalis yra inžinerijos laikas. Diegimas: 40–80 valandų. Metinė priežiūra: 60–120 valandų. Įprastais tarifais savęs talpinimo kelias kainuoja 20–75 kartus daugiau nei valdoma paslauga.
Teisingas klausimas yra ne 'kiek kainuoja programinė įranga?' Tai 'kiek kainuoja ją paleisti?' Daugumai komandų tas atsakymas rodo į valdomą SaaS.
Šaltiniai
Microsoft Presidio GitHub: klausimai ir diegimo dokumentacija. PATIKRINTA IŠORIŠKAI.
Ploomber: Presidio gamybos diegimo vadovas. PATIKRINTA IŠORIŠKAI.
BDAR 32 straipsnis: Techninės priemonės tinkamam saugumui. PATIKRINTA IŠORIŠKAI.