Den reelle kostnaden for "gratis" PII-deteksjon
"Det er gratis" er ikke en kostnadsanalyse. Det er en lisenpris — én faktor blant mange.
Microsoft Presidio koster €0 å laste ned. Programvaren er åpen kildekode. Men å kjore den hos et forsikringsselskap koster over €13 000 det forste året. Det gapet er ingeniortid.
Hva en produksjonsdistribusjon krever
Å gjore verktoyets produksjonsklart tar 40-80 timer. Her er hvor den tiden gar.
Docker-oppsett: 4-8 timer. Verktoyets bruker flere containere. En analyseringstjeneste, en anonymiseringstjeneste og en valgfri bilderedaktorer. Å få dem til å kommunisere er vanskelig. GitHub-saker viser at det er et vanlig feilpunkt.
Python-oppsett: 2-4 timer. Bibliotekene har strenge versjonskrav. Konflikter er vanlige — spesielt mellom spaCy-modellversjoner og Python 3.8/3.9/3.10. GitHub viser hundrevis av åpne saker om dette emnet.
Nedlasting av språkmodeller: 2-4 timer. spaCy-modeller varierer fra 300 MB til 1,4 GB per stykk. Et fem-språks oppsett trenger 1,5-7 GB lagring. Modelllastingsfeil er blant de vanligste stotteproblemene.
Egendefinerte gjenkjennere: 8-16 timer. Standardsettet dekker omtrent 40 enhetstyper. De fleste er US-identifikatorer. EU-distribusjoner trenger europeiske nasjonale ID-er. Helseserviceteam trenger medisinske journalformater. Hver type trenger Python-kode, YAML-oppsett og testing.
API-oppsett: 4-8 timer. Produksjonskonfigurasjon inkluderer tidsbegrensninger, autentisering, hastighetsbegrensninger og logging. Den offisielle dokumentasjonen er tynn. De fleste team finner svar i GitHub-sakstråder.
Revisjonslogging: 4-8 timer. GDPR krever registre over databehandling. Verktoyets har ingen revisjonslogg som standard. Team må skrive den som egendefinert kode.
Team-dokumentasjon: 4-8 timer.
Totalt innledende oppsett: 28-52 timer til €100/time = €2 800-5 200.
Arlige vedlikeholdskostnader
Verktoyets leverer oppdateringer 2-4 ganger per år. Store utgivelser har brutt APIer. Å holde tritt betyr å folge endringer, teste i staging og distribuere.
spaCy-modelloppdateringer legger til arbeid. Nye modellversjoner trenger re-nedlasting og noyaktighetskontroller for de gar live.
Python-avhengighetskonflikter fortsetter å komme. Et rent oppsett i dag kan go i stykker når en sikkerhetsoppdatering leveres neste måned.
Overvåking er også lopende. Containerhelse, minnelekkasjer og omstartsteg trenger alle jevnlig oppmerksomhet. spaCy-modeller er minnekrevende.
Totalt arlig vedlikehold: 60-120 timer til €100/time = €6 000-12 000.
En virkelig case-studie
Et compliance-team hos et forsikringsselskap satte seg fore å behandle kravdokumenter. De hadde to junior datautviklere og ingen DevOps-stotte.
Uke 1. De to hoved-containerne kunne ikke kommunisere med hverandre. Tre dager å fikse med hjelp fra GitHub.
Uke 2. Modeller mislyktes med å laste i produksjon. Minnekonfigurasjon var annerledes enn i dev-oppsettet. To dager å diagnostisere, én dag til å fikse.
Uke 3. En egendefinert regel for britisk nasjonalt forsikringsnummer fungerte i tester, men ga falske positiver på virkelige dokumenter. To dager til med justering.
Uke 4. Prosjektet ble eskalert. Tre ingeniøruker brukt. Fortsatt ikke i produksjon.
Teamet provde deretter anonym.legal. Forste dokument behandlet: 12 minutter etter registrering. Deteksjon av britisk nasjonalt forsikringsnummer var allerede innebygd. Ingen oppsett nodvendig.
De gikk over til anonym.legal Professional til €180/år.
Arlig TCO:
- Selvhost-bane — 40-80 flere timer for å fullføre, deretter €6 000-12 000/år i vedlikehold. Totalt: €10 000-20 000.
- anonym.legal Professional — €180/år. Distribusjonsstid: ~12 minutter.
- Ingeniortimer spart: ~132/år til €100/time = €13 200.
Det er et 70x kostnadsgap i år én.
For team som også slar med falsk positiv-problemer, se vår artikkel om Presidios presisjonsproblem.
Når selvhosting gir mening
Administrert SaaS vinner for de fleste team. Men selvhosting passer for noen tilfeller.
Datasuverenitet. Noen regler eller kontrakter forbyr sending av data utenfor egne systemer. Vår skrivebordsapp (anonym.plus) kjorer helt offline. Ingen data forlater maskinen. Samme noyaktighet, ingen server nodvendig.
Svart hoy volum. Millioner av API-kall per dag kan dytte per-kall-priser over serverkostnader. I den skalaen gir det mening å eie stakken.
Produktintegrasjon. Bygger du PII-deteksjon inn i ditt eget produkt og trenger full kontroll? Egendefinert åpen kildekode-arbeid er gyldig her.
Eksisterende DevOps. Team med et plattformteam som allerede kjorer mange tjenester, har lavere tilleggskostnad. Infrastruktur er en sunken kostnad for dem.
For alle andre — compliance-team, oppstartsselskaper, team uten DevOps — er administrert SaaS det klare valget. Se vår sikkerhetscompliance-oversikt for hvordan vertsbasert behandling moter bedriftsbehov.
Konklusjon
Åpen kildekode-verktoy har kostnader som ikke vises i lisensen. For denne typen verktoy er den store kostnaden ingeniortid. Oppsett: 40-80 timer. Arlig vedlikehold: 60-120 timer. Med normale satser koster selvhost-banen 20-75x mer enn en administrert tjeneste.
Riktig sporsmal er ikke "hva koster programvaren?" Det er "hva koster det å kjore den?" For de fleste team peker svaret mot administrert SaaS.
Kilder
Microsoft Presidio GitHub: Issues and Setup Documentation. VERIFIED-EXTERNAL.
Ploomber: Presidio Production Deployment Guide. VERIFIED-EXTERNAL.
GDPR artikkel 32: Tekniske tiltak for passende sikkerhet. VERIFIED-EXTERNAL.