anonym.legal
Takaisin BlogiinTekninen

Ilmainen avoimen lähdekoodin PII-tunnistus: Miksi Presidio maksaa yli 13 000 €/vuosi

Presidion itseisännöinti vaatii 40-80 tuntia alkuasetusta ja 5-10 tuntia/kuukausi jatkuvaa ylläpitoa. 100 €/tunnin insinöörikustannuksilla se on yli 13 200 € vuodessa verrattuna 180 €/vuosi hallinnoituun SaaS:iin. Tämä on todellinen TCO-laskelma.

March 7, 20267 min lukuaika
Presidio TCOopen-source costmanaged SaaSPII infrastructureDevOps cost

Ilmainen avoimen lähdekoodin PII-tunnistus: Miksi Presidio maksaa yli 13 000 €/vuosi

"Se on ilmainen" ei ole kokonaiskustannusanalyysi. Se on lisensointikustannus - yksi monista komponenteista.

Microsoft Presidio on ilmainen ladattavaksi, avoimen lähdekoodin ja Microsoftin tukema. Ohjelmiston kustannus: 0 €. Infrastruktuurin, insinöörityön ja ylläpidon kustannus tuotantovalmiille käyttöönotolle: yli 13 200 €/vuosi tiimeille, joilla on kokeneita insinöörivaroja. Enemmän tiimeille, joilla ei ole niitä.

Mitä tuotantovalmiin Presidion käyttöönotto todella vaatii

Alkuasetukset (40-80 insinöörituntia):

Docker-ympäristön konfigurointi ja verkotus: 4-8 tuntia. Presidion arkkitehtuuri vaatii useiden säiliöiden (analysointipalvelu, anonymisointipalvelu, valinnainen kuvan muokkaaja) koordinointia. Säiliöiden välinen verkon konfigurointi ei ole triviaalista ja se on usein dokumentoitu epäonnistumispisteeksi GitHub-ongelmissa.

Python-ympäristön hallinta: 2-4 tuntia. spaCy, presidio-analyzer, presidio-anonymizer ja niiden transitiiviset riippuvuudet omaavat monimutkaisia versiokelpoisuusvaatimuksia. GitHub näyttää satoja avoimia ongelmia, jotka liittyvät riippuvuuksien konflikteihin, erityisesti spaCy-malliversioiden ja Python 3.8/3.9/3.10 yhteensopivuuden välillä.

Kielimallien lataus ja hallinta: 2-4 tuntia. spaCy-kielimallit vaihtelevat 300 MB:sta 1,4 GB:iin. Käyttöönotto, joka tukee 5 kieltä, vaatii 1,5-7 GB mallivarastoa, asianmukaisen latauskonfiguraation ja muistivarauksen. Mallin latausongelmat ovat yksi yleisimmistä Presidion tukiongelmista.

Mukautetun tunnistimen kehittäminen: 8-16 tuntia. Oletusarvoinen Presidion tunnistinsetti kattaa noin 40 entiteettityyppiä, jotka keskittyvät Yhdysvaltojen tunnisteisiin. EU:n käyttöönotot tarvitsevat eurooppalaisia kansallisia tunnisteita. Terveydenhuollon käyttöönotot tarvitsevat lääkärintodistusten numeromuotoja. Jokainen mukautettu tunnistin vaatii Python PatternRecognizer -toteutuksen, YAML-rekisteröinnin ja testauksen.

API:n konfigurointi ja testaus: 4-8 tuntia. Tuotannon API-konfigurointi sisältää aikakatkaisuasetukset, todennuksen, nopeusrajoitukset ja lokituksen. Dokumentaatio näistä konfiguraatioista on niukkaa; useimmat tiimit saavat ne GitHub-ongelmakeskusteluista.

Vaatiotarkastuksen lokitus: 4-8 tuntia. GDPR vaatii osoitettavia käsittelytietoja. Presidio ei sisällä auditointilokitusta oletusarvoisesti - tämä on lisättävä mukautettuna middleware-kerroksena.

Tiimidokumentaatio ja perehdytys: 4-8 tuntia.

Kokonaisalkuasetus: 28-52 tuntia 100 €/tunti = 2 800-5 200 €

Vuosittainen ylläpito (60-120 tuntia/vuosi):

Presidio julkaisee päivityksiä 2-4 kertaa vuodessa. Suurten versioiden päivitykset (Presidio 2.x) ovat sisältäneet rikkovia API-muutoksia, jotka vaativat merkittävää uudelleentestausta. Tuotantokäytön ylläpito vaatii julkaisujen seuraamista, muutosten arvioimista, testamista staging-ympäristössä ja päivitysten käyttöönottoa.

spaCy-mallipäivitykset: Kielimalliparannuksia julkaistaan säännöllisesti. Päivitys vaatii mallien uudelleen lataamista, tunnistustarkkuuden muutosten testaamista ja uudelleen käyttöönottoa.

Riippuvuuksien konfliktien ratkaisu: Python-ekosysteemin riippuvuuksien konfliktit ovat jatkuva ylläpitotaakka. Nykyisin toimivat vaatimukset saattavat olla ristiriidassa seuraavan kuukauden aikana julkaistavien tietoturvapäivitysten kanssa.

Toiminnallinen valvonta: Säiliöiden terveyden valvonta, API:n saatavuuden tarkistukset, muistivuotojen havaitseminen (spaCy-mallit ovat muistia vaativia) ja uudelleenkäynnistysmenettelyt.

Kokonaisvuosittainen ylläpito: 60-120 tuntia 100 €/tunti = 6 000-12 000 €

Vakuutusyhtiön tapaustutkimus

Vakuutusyhtiön vaatimustenmukaisuus tiimi aloitti Presidion käyttöönoton käsittelyasiakirjojen käsittelyä varten. Tiimillä oli kaksi nuorempaa data-insinööriä eikä omistettua DevOpsia.

Viikko 1: Docker-verkko-ongelma monisäiliöarkkitehtuurissa. Presidion analysointi- ja anonymisointipalvelut eivät pystyneet kommunikoimaan. Ratkaistu 3 päivän jälkeen GitHub-ongelmien avulla.

Viikko 2: spaCy-mallin latausongelmat tuotantoympäristössä (eri muistikonfiguraatio kehityksestä). 2 päivää diagnosoida, 1 päivä ratkaista.

Viikko 3: Mukautettu tunnistin Yhdistyneen kuningaskunnan kansallisen vakuutusnumeron (NINO) muotoa varten. Malli toimi testauksessa, mutta tuotti vääriä positiivisia tuotantodokumenteissa. 2 lisäpäivää hienosäätöä.

Viikko 4: Projekti eskaloitu. 4 viikon arvioitu käyttöönotto oli kuluttanut 3 insinööriviikkoa eikä ollut tuotantovalmiina.

Vaihtoehtoarviointi: anonym.legal-tili luotu. Ensimmäinen asiakirja anonymisoitu: 12 minuuttia rekisteröinnin jälkeen. Yhdistyneen kuningaskunnan NINO-tunnistus: sisältyy oletusarvoiseen entiteettikirjastoon. Ei konfigurointia vaadittu.

Päätös: anonym.legal Professional -suunnitelma hyväksyttiin 180 €/vuosi.

TCO-vertailu tälle organisaatiolle:

  • Arvioitu Presidion tuotantokäyttöönotto: lisä 2-4 viikkoa = 40-80 insinöörituntia = 4 000-8 000 €

  • Vuosittainen Presidion ylläpito (ilman omistettua DevOpsia): ulkoistettu = 6 000-12 000 €/vuosi

  • Vuosi 1 yhteensä: 10 000-20 000 €

  • anonym.legal Professional: 180 €/vuosi

  • Insinööriaika käyttöönottoon: 12 minuuttia (merkityksetön)

  • Vuosi 1 yhteensä: 180 €

Säästetty insinööriaika verrattuna itseisännöityyn Presidioon: 60 tuntia alkuasetusta + 72 tuntia/vuosi ylläpitoa = noin 132 tuntia vuodessa 100 €/tunti = 13 200 € säästetty verrattuna 180 € kustannukseen.

Milloin itseisännöinti Presidiolla on järkevää

TCO-analyysi suosii hallinnoitua SaaS:ia useimmille organisaatioille. Itseisännöinti on sopivaa, kun:

Tietosuoja vaatimukset: Sääntely- tai sopimusvaatimukset, jotka estävät tietojen siirron ulkoisiin palvelimiin. Huom: anonym.legalin työpöytäsovellus (anonym.plus) tarjoaa offline-käsittelyä, säilyttäen Presidion tason tarkkuuden ilman, että tiedot poistuvat paikallisesta ympäristöstä - täyttäen tämän vaatimuksen alhaisemmalla TCO:lla kuin itseisännöity Presidio.

Äärimmäinen käsittelymäärä: Miljoonia API-kutsuja päivässä, jolloin per-pyyntö hinta ylittää infrastruktuurin kustannukset. Tässä mittakaavassa infrastruktuuri-investointi on perusteltua volyymieconomicsin vuoksi.

Syvä mukauttaminen: Organisaatiot, jotka rakentavat PII-tunnistusta tuotteeseen, jonka vaatimukset eivät sovi hallinnoidun palvelun entiteettikirjastoon tai API-suunnitteluun. Mukautetun tunnistimen kehittäminen Presidiolla on sopivaa tässä.

Olemassa oleva DevOps-infrastruktuuri: Organisaatiot, joilla on omistettu alustainsinööritys, jotka käsittelevät Presidiota yhtenä monista hallinnoiduista palveluista. Marginaalikustannus on alhaisempi, kun infrastruktuurin hallinta on jo uponnut kustannus.

Muille 95 %:lle organisaatioista - tiimeille ilman omistettua DevOpsia, vaatimustenmukaisuusosastoille, jotka tarvitsevat työkaluja, joita heidän ei-tekninen henkilöstönsä voi käyttää, startupit, jotka tarvitsevat vaatimustenmukaisuutta ennen kuin heillä on infrastruktuuri-insinöörejä - hallinnoidun palvelun TCO on ylivoimaisesti suotuisa.

Johtopäätös

"Ilmaisilla" avoimen lähdekoodin työkaluilla on todellisia kustannuksia, jotka eivät näy lisenssihinnassa. Presidion osalta nämä kustannukset koostuvat pääasiassa insinööriajasta - alkuasetuksesta (40-80 tuntia) ja jatkuvasta ylläpidosta (60-120 tuntia/vuosi). Tyypillisillä insinöörikustannuksilla tämä tekee Presidionista 20-75 kertaa kalliimman kuin hallinnoitu SaaS-vaihtoehto kokonaiskustannusten perusteella.

Oikea kysymys ei ole "paljonko ohjelmisto maksaa?" vaan "paljonko ohjelmiston ajaminen tuotannossa maksaa?" Useimmille organisaatioille vastaus suosii hallinnoitua SaaS:ia.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.