El cost real de la deteccio de IIP "gratuita"
"Es gratuit" no es una analisi de costos. Es un preu de llicencia: un factor entre molts.
Microsoft Presidio costa 0 EUR per descarregar. El programari es de codi obert. Pero executar-lo a una empresa d'assegurances costa mes de 13.000 EUR el primer any. Aquesta diferencia son hores d'enginyeria.
Que necessita un desplegament en produccio
Preparar l'eina per a produccio requereix entre 40 i 80 hores. Aqui teniu on va aquest temps.
Configuracio de Docker: 4-8 hores. L'eina utilitza diversos contenidors. Un servei d'analisi, un servei d'anonimitzacio i un redactor d'imatges opcional. Aconseguir que es comuniquin entre ells es dificil. Els problemes de GitHub mostren que es un punt de fallada habitual.
Configuracio de Python: 2-4 hores. Les biblioteques tenen regles de versio estrictes. Els conflictes son habituals, especialment entre les versions del model spaCy i Python 3.8/3.9/3.10. GitHub mostra centenars de problemes oberts sobre aquest tema.
Descàrregues del model de llenguatge: 2-4 hores. Els models de spaCy van de 300 MB a 1,4 GB cadascun. Una configuracio de cinc idiomes necessita entre 1,5 i 7 GB d'emmagatzematge. Les fallades de carrega del model estan entre els problemes de suport mes habituals.
Reconeixedors personalitzats: 8-16 hores. El conjunt per defecte cobreix aproximadament 40 tipus d'entitats. La majoria son identificadors dels EUA. Els desplegaments de la UE necessiten identificadors nacionals europeus. Els equips de salut necessiten formats de historials medics. Cada tipus necessita codi Python, configuracio YAML i proves.
Configuracio de l'API: 4-8 hores. La configuracio de produccio inclou temps d'espera, autenticacio, limits de velocitat i registre. La documentacio oficial es escassa. La majoria d'equips troben respostes als fils de problemes de GitHub.
Registre d'auditoria: 4-8 hores. El RGPD requereix registres del processament de dades. L'eina no te cap registre d'auditoria per defecte. Els equips han d'escriure'l com a codi personalitzat.
Documentacio de l'equip: 4-8 hores.
Total de configuracio inicial: 28-52 hores a 100 EUR/hora = 2.800-5.200 EUR.
Costos anuals de manteniment
L'eina envia actualitzacions 2-4 vegades l'any. Les versions principals han trencat les API. Mantenir-se al dia significa fer un seguiment dels canvis, fer proves a l'entorn d'staging i desplegar.
Les actualitzacions del model spaCy afegeixen mes feina. Les noves versions del model cal tornar a descarregar-les i comprovar-ne la precisio abans de posar-les en produccio.
Els conflictes de dependencies de Python continuen apareixent. Una configuracio neta avui pot trencar-se quan arriba un pegat de seguretat el mes que ve.
El monitoratge tambe es continuu. La salut dels contenidors, les fuites de memoria i els passos de reinici necessiten atencio regular. Els models spaCy son intensius en memoria.
Total de manteniment anual: 60-120 hores a 100 EUR/hora = 6.000-12.000 EUR.
Un cas real
Un equip de compliment d'una empresa d'assegurances va voler processar documents de reclamacions. Tenien dos enginyers de dades juniors i cap suport DevOps.
Setmana 1. Els dos contenidors principals no es podien comunicar. Tres dies per solucionar-ho amb ajuda de GitHub.
Setmana 2. Els models van fallar en carregar a produccio. La configuracio de memoria era diferent de la de l'entorn de desenvolupament. Dos dies per diagnosticar-ho, un mes per solucionar-ho.
Setmana 3. Una regla personalitzada per al numero de seguretat social del Regne Unit funcionava a les proves pero generava falsos positius en documents reals. Dos dies mes d'ajust.
Setmana 4. El projecte va ser escalat. Tres setmanes d'enginyeria gastades. Encara no estava en produccio.
L'equip va provar llavors anonym.legal. Primer document processat: 12 minuts despres del registre. La deteccio del numero de seguretat social del Regne Unit ja estava incorporada. No calia cap configuracio.
Van passar al pla Professional d'anonym.legal a 180 EUR/any.
Cost total del primer any:
- Via d'allotjament propi: 40-80 hores mes per acabar, despres 6.000-12.000 EUR/any per mantenir. Total: 10.000-20.000 EUR.
- anonym.legal Professional: 180 EUR/any. Temps de desplegament: ~12 minuts.
- Hores d'enginyeria estalviades: ~132/any a 100 EUR/hora = 13.200 EUR.
Aixo representa una diferencia de costos de 70x el primer any.
Per als equips que tambe s'enfronten a problemes de falsos positius, vegeu el nostre post sobre el problema de precisio de Presidio.
Quan te sentit l'allotjament propi
El SaaS gestionat guanya per a la majoria d'equips. Pero l'allotjament propi s'adapta a alguns casos.
Sobirania de dades. Algunes normes o contractes prohibeixen enviar dades a l'exterior. La nostra Aplicacio d'Escriptori (anonym.plus) funciona completament sense connexio. Cap dada surt de la maquina. La mateixa precisio, sense servidor.
Volum molt alt. Milions de crides a l'API al dia poden fer que el preu per crida superi els costos del servidor. A aquesta escala, tenir la teva propia infraestructura te sentit.
Integracio de productes. Si incorporeu la deteccio de IIP al vostre propi producte i necessiteu un control total, el treball personalitzat de codi obert es valid aqui.
DevOps existent. Els equips amb un equip de plataforma que ja executa molts serveis afronten un cost afegit menor. La infraestructura es un cost enfonsat per a ells.
Per a tots els altres, equips de compliment, startups, equips sense DevOps, el SaaS gestionat es l'opcio clara. Vegeu el nostre resum de compliment de seguretat per saber com el processament allotjat compleix les necessitats empresarials.
Conclusio
Les eines de codi obert tenen costos que no apareixen a la llicencia. Per a aquest tipus d'eina, el gran cost son les hores d'enginyeria. Configuracio: 40-80 hores. Manteniment anual: 60-120 hores. A tarifes normals, la via d'allotjament propi costa entre 20 i 75 vegades mes que un servei gestionat.
La pregunta correcta no es "quant costa el programari?" Es "quant costa executar-lo?" Per a la majoria d'equips, la resposta apunta al SaaS gestionat.
Fonts
Microsoft Presidio GitHub: Problemes i documentacio de configuracio. VERIFICAT-EXTERN.
Ploomber: Guia de desplegament en produccio de Presidio. VERIFICAT-EXTERN.
RGPD Article 32: Mesures tecniques per a la seguretat adequada. VERIFICAT-EXTERN.