"Ilmaisen" henkilötietojen tunnistuksen todelliset kustannukset
"Se on ilmainen" ei ole kustannusanalyysi. Se on lisenssihinta — yksi tekijä monista.
Microsoft Presidio maksaa 0 € latauksesta. Ohjelmisto on avoimen lähdekoodin. Mutta sen käyttäminen vakuutusyhtiössä maksaa yli 13 000 euroa ensimmäisenä vuonna. Tuo erotus on insinöörityötä.
Mitä tuotantokäyttöönotto vaatii
Työkalun saattaminen tuotantovalmiiksi vaatii 40–80 tuntia. Tässä se aika menee.
Docker-konfiguraatio: 4–8 tuntia. Työkalu käyttää useita kontteja. Analyysipalvelu, anonymisointipalvelu ja valinnainen kuvien häivyttäjä. Näiden välisen kommunikaation saaminen toimimaan on hankalaa. GitHubin ongelmat osoittavat, että se on yleinen vikaantumiskohta.
Python-konfiguraatio: 2–4 tuntia. Kirjastoilla on tiukat versiosäännöt. Ristiriidat ovat yleisiä — erityisesti spaCy-mallien versioiden ja Python 3.8/3.9/3.10 välillä. GitHub näyttää satoja avoimia ongelmia tästä aiheesta.
Kielimallien lataus: 2–4 tuntia. spaCy-mallit ovat kooltaan 300 MB:stä 1,4 GB:hen kukin. Viiden kielen konfiguraatio vaatii 1,5–7 GB tallennustilaa. Mallien latausvirheet ovat yleisimpiä tukiongelmia.
Mukautetut tunnistimet: 8–16 tuntia. Oletusjoukko kattaa noin 40 entiteettityyppiä. Useimmat ovat yhdysvaltalaisia tunnistimia. EU-käyttöönotot tarvitsevat eurooppalaisia kansallisia henkilöllisyysasiakirjoja. Terveydenhuoltotiimit tarvitsevat tiettyjä potilastietomuotoja. Jokainen tyyppi vaatii Python-koodia, YAML-konfiguraatiota ja testauksen.
API-konfiguraatio: 4–8 tuntia. Tuotantokonfiguraatio sisältää aikakatkaisut, todentamisen, nopeusrajoitukset ja lokituksen. Virallinen dokumentaatio on niukka. Useimmat tiimit löytävät vastaukset GitHub-ongelmasäikeistä.
Auditointilokitukset: 4–8 tuntia. GDPR edellyttää tietojenkäsittelyn kirjauksia. Työkalu ei tuota auditointilokeja oletuksena. Tiimien on kirjoitettava ne mukautettuna koodina.
Tiimin dokumentaatio: 4–8 tuntia.
Alkukonfiguraation kokonaismäärä: 28–52 tuntia × 100 €/h = 2 800–5 200 €.
Vuotuiset ylläpitokustannukset
Työkalu julkaisee päivityksiä 2–4 kertaa vuodessa. Pääjulkaisut ovat muuttaneet API:ta. Ajan tasalla pysyminen tarkoittaa muutosten seuraamista, staging-testausta ja käyttöönottoa.
spaCy-mallien päivitykset lisäävät työtä. Uudet malliversiot on ladattava ja tarkistettava tarkkuuden osalta ennen tuotantoon siirtämistä.
Python-riippuvuuksien ristiriidat jatkuvat. Puhdas konfiguraatio tänään saattaa rikkoutua, kun tietoturvakorjaus saapuu ensi kuussa.
Myös valvonta on jatkuvaa. Konttien tila, muistivuodot ja uudelleenkäynnistysprosessit vaativat säännöllistä huomiota. spaCy-mallit ovat muisti-intensiivisiä.
Vuotuinen ylläpito yhteensä: 60–120 tuntia × 100 €/h = 6 000–12 000 €.
Todellinen tapaus
Eräs vakuutusyhtiön compliance-tiimi halusi käsitellä vahinkoon liittyviä asiakirjoja. Käytettävissä oli kaksi nuorta data-insinööriä eikä DevOps-tukea.
Viikko 1. Kaksi pääkonttia ei pystynyt kommunikoimaan. Kolme päivää ratkaisemiseen GitHubin avulla.
Viikko 2. Mallit eivät latautuneet tuotannossa. Muistikonfiguraatio poikkesi kehitysympäristöstä. Kaksi päivää diagnosointiin, vielä yksi korjaamiseen.
Viikko 3. Mukautettu sääntö brittiläiselle kansanvakuutusnumerolle toimi testeissä mutta tuotti vääriä positiivisia todellisissa asiakirjoissa. Vielä kaksi päivää hienosäätöä.
Viikko 4. Projekti eskaloitiin. Kolme insinööriviikkoa kulutettu. Ei vielä tuotannossa.
Tiimi kokeili sitten anonym.legal-palvelua. Ensimmäinen käsitelty asiakirja: 12 minuuttia rekisteröinnin jälkeen. Brittiläisen kansanvakuutusnumeron tunnistus oli jo sisäänrakennettu. Ei konfiguraatiota tarvittu.
He siirtyivät anonym.legalin Professional-suunnitelmaan 180 €/vuosi.
Ensimmäisen vuoden TCO:
- Itse isännöity polku — 40–80 lisätuntia valmistumiseen, sitten 6 000–12 000 €/vuosi ylläpitoa. Yhteensä: 10 000–20 000 €.
- anonym.legal Professional — 180 €/vuosi. Käyttöönottoaika: ~12 minuuttia.
- Säästetyt insinööritunnit: ~132/vuosi × 100 €/h = 13 200 €.
Kustannusero on 70-kertainen ensimmäisenä vuonna.
Tiimeille, jotka kohtaavat myös väärän positiivisen ongelmia, katso artikkeli Presidion tarkkuusongelmasta.
Milloin itse isännöinti on järkevää
Hallittu SaaS voittaa useimmille tiimeille. Mutta itse isännöinti sopii joihinkin tapauksiin.
Datasuvereniteetti. Jotkin säännöt tai sopimukset kieltävät datan lähettämisen ulkopuolelle. Desktop-sovelluksemme (anonym.plus) toimii täysin offline-tilassa. Dataa ei lähde koneelta. Sama tarkkuus, ei palvelimia tarvittu.
Erittäin suuret volyymit. Miljoonia API-kutsuja päivässä saattaa ylittää kutsukohtaiset kustannukset verrattuna palvelinkustannuksiin. Siinä mittakaavassa oman pinon omistaminen on järkevää.
Tuoteintegraatio. Integroit henkilötietojen tunnistusta tuotteeseesi ja tarvitset täyden hallinnan? Mukautettu avoimen lähdekoodin työ on pätevä täällä.
Olemassa oleva DevOps. Tiimeillä, joilla on alustaorganisaatio, joka jo hallinnoi useita palveluja, on pienempiä lisäkustannuksia. Infrastruktuuri on heille kiinteä kustannus.
Kaikille muille — compliance-tiimit, startuppit, tiimit ilman DevOpsia — hallittu SaaS on ilmiselvä valinta. Katso tietoturva-compliancen yleiskatsauksemme siitä, miten isännöity käsittely vastaa liiketoiminnan tarpeisiin.
Yhteenveto
Avoimen lähdekoodin työkaluilla on kustannuksia, jotka eivät näy lisenssihinnassa. Tämäntyyppisessä työkalussa pääkustannus on insinöörityöaika. Konfiguraatio: 40–80 tuntia. Vuotuinen ylläpito: 60–120 tuntia. Normaaleilla tuntihinnoilla itse isännöity polku maksaa 20–75 kertaa enemmän kuin hallittu palvelu.
Oikea kysymys ei ole "paljonko ohjelmisto maksaa?" Vaan "paljonko sen käyttäminen maksaa?" Useimmille tiimeille vastaus osoittaa hallittuun SaaSiin.
Lähteet
Microsoft Presidio GitHub: Ongelmat ja konfiguraatiodokumentaatio. VAHVISTETTU-ULKOINEN.
Ploomber: Presidion tuotantokäyttöönotto-opas. VAHVISTETTU-ULKOINEN.
GDPR 32 artikla: Tekniset toimenpiteet riittävän turvallisuuden saavuttamiseksi. VAHVISTETTU-ULKOINEN.