Die Werklike Koste van "Gratis" PII-Opsporing
"Dit is gratis" is nie 'n koste-ontleding nie. Dit is 'n lisensieprys -- een faktor onder baie.
Microsoft Presidio kos EUR 0 om af te laai. Die sagteware is oopbron. Maar om dit by 'n versekeringsmaatskappy te bestuur, kos meer as EUR 13,000 in die eerste jaar. Hierdie gaping is ingenieursarbeid.
Wat 'n Produksie-Ontplooiing Benodig
Om die nutsmiddel gereed te kry vir produksie neem 40-80 uur. Hier is waar daardie tyd naartoe gaan.
Docker-opstelling: 4-8 uur. Die nutsmiddel gebruik verskeie houers. 'n Ontlederdiens, 'n anonimiseringsdiens, en 'n opsionele beeldredigeerder. Om hulle met mekaar te laat kommunikeer is moeilik. GitHub-kwessies wys dit is 'n algemene faalput.
Python-opstelling: 2-4 uur. Die biblioteke het streng weergawerels. Konflikte is algemeen -- veral tussen spaCy-modelweergawes en Python 3.8/3.9/3.10. GitHub wys honderde oop kwessies oor hierdie onderwerp.
Taalmodelaflaai: 2-4 uur. spaCy-modelle wissel van 300 MB tot 1.4 GB elk. 'n Vyftaal-opstelling benodig 1.5-7 GB stoorplek. Modellaaifailures is onder die mees algemene ondersteuningskwessies.
Pasgemaakte herkenners: 8-16 uur. Die verstekstel dek sowat 40 entiteitstipes. Die meeste is Amerikaanse identifiseerders. EU-ontplooiings benodig Europese nasionale ID's. Gesondheidsorgspanne benodig mediese rekordformate. Elke tipe benodig Python-kode, YAML-opstelling en toetsing.
API-opstelling: 4-8 uur. Produksiekonfigurasie sluit tyduitval, stawing, tempolimiet en aantekening in. Die amptelike dokumentasie is skraal. Die meeste spanne vind antwoorde in GitHub-kwessie-drade.
Ouditaantekening: 4-8 uur. GDPR vereis rekords van dataverwerking. Die nutsmiddel het geen verstek-ouditaantekeningleer nie. Spanne moet dit as pasgemaakte kode skryf.
Spandokumentasie: 4-8 uur.
Totale aanvanklike opstelling: 28-52 uur teen EUR 100/uur = EUR 2,800-5,200.
Jaarlikse Instandhoudingskoste
Die nutsmiddel stuur 2-4 keer per jaar opdaterings uit. Groot weergawes het API's verbreek. Om by te hou beteken om veranderinge te volg, in stasering te toets, en te ontplooi.
spaCy-modelopdaterings voeg ook werk by. Nuwe modelweergawes moet hergelaai word en akkuraatheidskontroles moet gedoen word voor ingebruikneming.
Python-afhanklikheidskonflikte bly aanhou. 'n Skoon opstelling vandag kan breek wanneer 'n sekuriteitsoplossing volgende maand gestuur word.
Monitoring is ook deurlopend. Houergezondheid, geheuelekke en herbeginstappe benodig gereelde aandag. spaCy-modelle is geheue-swaar.
Totale jaarlikse instandhouding: 60-120 uur teen EUR 100/uur = EUR 6,000-12,000.
'n Regte-Wereld-Gevallestudie
'n Nakoming-span by 'n versekeringsonderneming het begin om eise-dokumente te verwerk. Hulle het twee junior data-ingenieurs gehad en geen DevOps-ondersteuning nie.
Week 1. Die twee hoofhouers kon nie met mekaar kommunikeer nie. Drie dae om te herstel met hulp van GitHub.
Week 2. Modelle het gefaal om in produksie te laai. Geheue-konfigurasie was anders as die ontwikkelingsopstelling. Twee dae om te diagnoseer, nog een om te herstel.
Week 3. 'n Pasgemaakte Britse Nasionale Versekeringsnommerreel het in toetse gewerk maar het in werklike dokumente vals positiewes getref. Nog twee dae se instelling.
Week 4. Die projek is geskaleer. Drie ingeniersweke bestee. Steeds nie in produksie nie.
Die span het toe anonym.legal probeer. Eerste dokument verwerk: 12 minute na aanmelding. Britse Nasionale Versekeringsnommer-opsporing was reeds ingebou. Geen opstelling nodig nie.
Hulle het na anonym.legal Professioneel op EUR 180/jaar oorgeskakel.
Eerste-jaar-totale eienaarskapskoste:
- Selfgasheerde pad -- 40-80 uur meer om te voltooi, dan EUR 6,000-12,000/jaar om in stand te hou. Totaal: EUR 10,000-20,000.
- anonym.legal Professioneel -- EUR 180/jaar. Ontplooiingstyd: ~12 minute.
- Ingenieursure bespaar: ~132/jaar teen EUR 100/uur = EUR 13,200.
Dit is 'n 70x-kostegaping in die eerste jaar.
Vir spanne wat ook met vals positiewe kwessies te kampe het, sien ons pos oor Presidio se presisieprobleem.
Wanneer Selfgastheid Sinvol Is
Bestuurde SaaS wen vir die meeste spanne. Maar selfgastheid pas sommige gevalle.
Datasoewereiniteit. Sommige reels of kontrakte verbied die stuur van data buite. Ons Lessenaartoepassing (anonym.plus) loop volledig vanlyn. Geen data verlaat die masjien nie. Dieselfde akkuraatheid, geen bediener nodig nie.
Baie hoe volume. Miljoene API-oproepe per dag kan per-oproep-pryse bo bedienerkoste stoot. Op daardie skaal is dit sinvol om die stapel te besit.
Produk-integrasie. As u PII-opsporing in u eie produk bou en volle beheer benodig, is pasgemaakte oopbronwerk geldig hier.
Bestaande DevOps. Spanne met 'n platformspan wat reeds baie dienste bestuur, het laer bykomende koste. Infrastruktuur is 'n versenkte koste vir hulle.
Vir almal anders -- nakoming-spanne, nuwelinge-ondernemings, spanne sonder DevOps -- is bestuurde SaaS die duidelike keuse. Sien ons sekuriteitsnakoming-oorsig vir hoe gasheerde verwerking aan ondernemingsbehoeftes voldoen.
Gevolgtrekking
Oopbron-nutsmiddels het koste wat nie in die lisensie verskyn nie. Vir hierdie tipe nutsmiddel is die groot koste ingenieursarbeid. Opstelling: 40-80 uur. Jaarlikse instandhouding: 60-120 uur. Teen normale koerse kos die selfgasheerde pad 20-75x meer as 'n bestuurde diens.
Die regte vraag is nie "wat kos die sagteware?" Dit is "wat kos dit om dit te bestuur?" Vir die meeste spanne wys hierdie antwoord na bestuurde SaaS.
Bronne
Microsoft Presidio GitHub: Kwessies en Opstellingsdokumentasie. GEVERIFIEER-EKSTERN.
Ploomber: Presidio Produksie-Ontplooiingsgids. GEVERIFIEER-EKSTERN.
GDPR Artikel 32: Tegniese maatreels vir gepaste sekuriteit. GEVERIFIEER-EKSTERN.