Doako PII Detekzioaren Benetako Kostua
"Dohainik da" ez da kostuaren azterketa. Lizentzia-prezioa da, hainbat faktoreetako bat.
Microsoft Presidio 0 euroan deskargatu daiteke. Softwarea kode irekikoa da. Baina aseguru-enpresa batean exekutatzeak lehen urtean 13.000 euro baino gehiago kostatzen du. Alde hori ingeniaritza-denbora da.
Produkzio-hedapenak Zer Behar Duen
Tresna produkziorako prest izateak 40-80 ordu eskatzen ditu. Hona hemen denbora nora doan.
Docker konfigurazioa: 4-8 ordu. Tresnak hainbat edukiontzi erabiltzen ditu. Analizatzaile-zerbitzu bat, anonimizatzaile-zerbitzu bat eta aukerako irudi-erredaktore bat. Elkarri hitz egiten lortzea zaila da. GitHub-eko arazoak erakusten du porroten puntu arrunta dela.
Python konfigurazioa: 2-4 ordu. Liburutegiek bertsio-arau zorrotzak dituzte. Gatazkak ohikoak dira, batez ere spaCy eredu-bertsio eta Python 3.8/3.9/3.10 artean. GitHub-ek ehunka arazo irekiak erakusten ditu gai honetan.
Hizkuntza-ereduen deskargak: 2-4 ordu. spaCy ereduak 300 MB eta 1,4 GB artean kokatzen dira. Bost hizkuntzako konfigurazio batek 1,5-7 GB biltegiratze behar du. Eredu-kargatzeko porrotak laguntza-arazo ohikoenen artean daude.
Pertsonalizatutako ezagutzaileak: 8-16 ordu. Lehenetsi multzoak 40 entitate mota inguru hartzen ditu. Gehienak AEBetako identifikatzaileak dira. EBko hedapenek Europako nazio-IDak behar dituzte. Osasun-taldeek mediku-erregistroen formatuak behar dituzte. Mota bakoitzak Python kodea, YAML konfigurazioa eta probak behar ditu.
API konfigurazioa: 4-8 ordu. Produkzio-konfigurazioek denborak, autentifikazioa, tasa-mugak eta erregistroa hartzen dituzte. Dokumentazio ofizialak mehea da. Talde gehienek GitHub arazo-lokaretan aurkitzen dituzte erantzunak.
Auditoria-erregistroa: 4-8 ordu. GDPRek datu-prozesatzeko erregistroak eskatzen ditu. Tresnak ez du auditoria-erregistro lehenetsirik. Taldeak kode pertsonalizatua idatzi behar du.
Taldeko dokumentazioa: 4-8 ordu.
Hasierako konfigurazio guztira: 28-52 ordu, 100 euro/orduan = 2.800-5.200 euro.
Urteko Mantentze-kostuak
Tresnak urtean 2-4 aldiz eguneraketak bidaltzen ditu. Bertsio nagusiek APIak hautsi dituzte. Eguneratuta egoteak aldaketak jarraitzea, stage-n probatzea eta hedatzea esan nahi du.
spaCy eredu-eguneraketak lan gehiago gehitzen dute. Eredu-bertsio berriek berriz deskargatzea eta zehaztasun-egiaztatzeak behar dituzte zuzenean sartu aurretik.
Python mendekotasun-gatazkak jarraitzen dute. Gaur egun garbi dagoen konfigurazio bat hurrengo hilean segurtasun-adabaki bat iritsitakoan apurtu daiteke.
Monitorizazioa etengabea da ere. Edukiontzi-osasuna, memoria-ihesak eta berrabiarazte-urratsek arreta erregularra behar dute. spaCy ereduak memoria-pisutsuak dira.
Urteko mantentze guztira: 60-120 ordu, 100 euro/orduan = 6.000-12.000 euro.
Benetako Kasua
Aseguru-enpresa bateko betetze-taldeak erreklamazioaren dokumentuak prozesatzeko asmoa zuen. Bi datu-ingeniari gaztek zeuzkaten eta ez zuten DevOps laguntzarik.
1. astea. Bi edukiontzi nagusiek ezin zioten elkarri hitz egin. Hiru egun konpontzeko GitHub-en laguntzarekin.
2. astea. Ereduak huts egin zuten produkzioan kargatzean. Memoria-konfigurazioa garapen-konfiguraziotik ezberdina zen. Bi egun diagnostikatzeko, bat gehiago konpontzeko.
3. astea. Erresuma Batuko Aseguru Gizarte Zenbaki pertsonalizatutako araua probetan funtzionatu zuen baina benetako dokumentuetan faltsu-positiboak sortu zituen. Bi egun gehiago doituz.
4. astea. Proiektua eskalatu zen. Hiru ingeniaritza-aste pasa ziren. Oraindik ez dago produkzioan.
Taldeak anonym.legal-i eman zion aukera. Lehenengo dokumentua prozesatua: erregistratu eta 12 minutura. Erresuma Batuko Aseguru Gizarte Zenbaki detekzioa dagoeneko integratua zegoen. Ez zen konfigurazio beharrik.
anonym.legal Professional-era pasatu ziren, 180 euro/urtean.
Lehen urteko TCO guztira:
- Autobertako bidea - 40-80 ordu gehiago bukatzeko, gero 6.000-12.000 euro/urte mantentzeko. Guztira: 10.000-20.000 euro.
- anonym.legal Professional - 180 euro/urte. Hedapen-denbora: ~12 minutu.
- Aurreztutako ingeniaritza-orduak: ~132/urte, 100 euro/orduan = 13.200 euro.
Hori lehen urtean 70x kostu-aldea da.
Faltsu-positibo arazo ere dituzten taldeentzat, ikusi gure argitalpena Presidioren zehaztasun-arazoan.
Noiz du Zentzua Autobertako Ostatzeak
Kudeatu SaaS talde gehienentzat irabazten du. Baina autobertako ostatzeak kasu batzuetan egokia da.
Datu-subiranotasuna. Zenbait arau edo kontratu datuak kanpora bidaltzeari debekatzen diote. Gure Desktop App-ak (anonym.plus) erabat konektatu gabe funtzionatzen du. Daturik ez da makinatik irteten. Zehaztasun bera, ez da zerbitzariarik behar.
Bolumen oso handia. Egunean milioika API deia egin daiteke deia-mailako prezioak zerbitzari-kostuak baino gorago. Eskala horretan, pila jabetzeak zentzua du.
Produktu-integrazioa. PII detekzioa zure produktuan eraikitzen ari zara eta kontrol osoa behar duzu? Pertsonalizatutako kode irekiko lana baliozkoa da hemen.
Lehendik dagoen DevOps. Hainbat zerbitzu exekutatzen dituen plataforma-taldea daukaten taldeek gehitutako kostu txikiagoa aurre egiten diote. Azpiegitura haientzako kostu hunki da.
Gainerako guztientzat - betetze-taldeak, abiarazteak, DevOps gabeko taldeak - kudeatu SaaS aukera argia da. Ikusi gure segurtasun betetze ikuspegi orokorra ostatu-prozesatzeak nola erantzuten dion enpresa-beharrei.
Ondorioa
Kode irekiko tresnek lizentzia-tasan agertzen ez diren kostuak dituzte. Tresna mota honetarako, kostu handia ingeniaritza-denbora da. Konfigurazioa: 40-80 ordu. Urteko mantentze: 60-120 ordu. Tasaren neurrietan, autobertako bideak kudeatu zerbitzuak baino 20-75x gehiago kostatzen du.
Galdera egokia ez da: "Softwareak zer kostatzen du?" Da: "Exekutatzeak zer kostatzen du?" Talde gehienentzat, erantzun horrek kudeatu SaaSera deigarri egiten du.
Iturriak
Microsoft Presidio GitHub: Arazoak eta konfigurazio-dokumentazioa. EGIAZTATU-KANPOKO.
Ploomber: Presidio Produkzio-hedapenerako Gida. EGIAZTATU-KANPOKO.
GDPR 32. artikulua: Segurtasun egokiarentzako neurri teknikoak. EGIAZTATU-KANPOKO.