Az „ingyenes” PII-felismerés valódi költsége
Az „ingyenes” nem költségelemzés. Ez egy licenc ára — sok tényező egyike.
A Microsoft Presidio letöltése 0 euróba kerül. A szoftver nyílt forráskódú. Egy biztosítótársaságnál azonban az első évben több mint 13 000 euróba kerül a működtetése. Ez a különbség mérnöki munkaidő.
Mire van szükség egy éles üzemeltetéshez?
Az eszköz éles üzemeltetésre való felkészítése 40–80 óra munkát igényel. Az alábbiakban látható, hova megy ez az idő.
Docker beállítás: 4–8 óra. Az eszköz több tárolót használ: egy elemzőszolgáltatást, egy anonymizálószolgáltatást és egy opcionális képredakciós modult. Ezek összekötése nehéz. A GitHub issue-k szerint ez a leggyakoribb hibapont.
Python beállítás: 2–4 óra. A könyvtáraknak szigorú verziókövetelményei vannak. A konfliktusok gyakoriak — különösen a spaCy modellverziók és a Python 3.8/3.9/3.10 között. A GitHubon ezzel kapcsolatban százak nyitott issue látható.
Nyelvi modellek letöltése: 2–4 óra. A spaCy modellek mérete 300 MB-tól 1,4 GB-ig terjed. Ötnyelvű beállításhoz 1,5–7 GB tárhelyre van szükség. A modellbetöltési hibák a leggyakoribb ügyfélszolgálati problémák közé tartoznak.
Egyedi felismerők: 8–16 óra. Az alapértelmezett készlet körülbelül 40 entitástípust fed le. Ezek többsége US-alapú azonosító. Az EU-s telepítésekhez európai személyi igazolványformátumok kellenek. Az egészségügyi csapatoknak orvosi nyilvántartási formátumokra van szükségük. Minden típushoz Python-kód, YAML-beállítás és tesztelés szükséges.
API beállítás: 4–8 óra. Az éles konfiguráció tartalmaz időtúllépéseket, hitelesítést, sebességkorlátokat és naplózást. A hivatalos dokumentáció vékony. A legtöbb csapat a GitHub issue-szálakban talál megoldásokat.
Auditnaplózás: 4–8 óra. A GDPR megköveteli az adatkezelési tevékenységek nyilvántartását. Az eszköznek alapértelmezés szerint nincs auditnapló-funkciója. A csapatoknak egyedi kódként kell megírniuk.
Csapatdokumentáció: 4–8 óra.
Teljes kezdeti beállítás: 28–52 óra, 100 euró/óra áron = 2 800–5 200 euró.
Éves karbantartási költségek
Az eszköz évente 2–4 alkalommal kap frissítést. A főbb kiadások megtörték az API-kat. A naprakészség érdekében nyomon kell követni a változásokat, tesztelni kell az átmeneti környezetben, majd telepíteni kell.
A spaCy modellfrissítések is munkát adnak. Az új modellverziók letöltése és pontosságellenőrzése szükséges az élesítés előtt.
A Python-függőségi konfliktusok folytatódnak. Egy ma tiszta beállítás a jövő havi biztonsági javítás után meghibásodhat.
A monitorozás is folyamatos. A tároló állapota, a memóriaszivárgások és az újraindítási lépések mind rendszeres figyelmet igényelnek. A spaCy modellek memóriaigénye nagy.
Teljes éves karbantartás: 60–120 óra, 100 euró/óra áron = 6 000–12 000 euró.
Valódi esettanulmány
Egy biztosítótársaság megfelelőségi csapata kárigénydokumentumok feldolgozásába kezdett. Két junior adatmérnökük volt, DevOps-támogatásuk nem.
1. hét. A két fő tároló nem tudott kommunikálni egymással. Három nap kellett a megoldáshoz GitHub-segítséggel.
2. hét. A modellek nem töltődtek be az éles környezetben. A memóriakonfiguráció különbözött a fejlesztői beállítástól. Két nap diagnosztizálás, egy nap javítás.
3. hét. Egy egyedi UK National Insurance Number szabály tesztekben működött, de valós dokumentumokon téves pozitívokat produkált. Két nap finomhangolás.
4. hét. A projektet eszkalálták. Három mérnöki hét telt el. Még nem volt éles környezetben.
A csapat ezután kipróbálta az anonym.legal-t. Az első feldolgozott dokumentum: 12 perccel a regisztráció után. A UK National Insurance Number felismerés már beépített volt. Nem kellett beállítás.
Átálltak az anonym.legal Professional csomagra, évi 180 euróért.
Első évi teljes tulajdonlási költség:
- Saját üzemeltetés — még 40–80 óra az élesítéshez, majd évente 6 000–12 000 euró karbantartásra. Összesen: 10 000–20 000 euró.
- anonym.legal Professional — 180 euró/év. Telepítési idő: ~12 perc.
- Megspórolt mérnöki órák: ~132/év, 100 euró/óra áron = 13 200 euró.
Ez 70-szeres költségkülönbség az első évben.
A téves pozitív problémákkal is küzdő csapatoknak ajánljuk a Presidio precizitási problémájáról szóló cikkünket.
Mikor érdemes saját üzemeltetést választani?
A felügyelt SaaS a legtöbb csapat számára a jobb választás. De a saját üzemeltetés egyes esetekben indokolt.
Adatszuverenitás. Egyes szabályok vagy szerződések tiltják, hogy az adatok az országon kívülre kerüljenek. A Desktop App (anonym.plus) teljesen offline működik. Semmilyen adat nem hagyja el a gépet. Ugyanolyan pontossággal, szerver nélkül.
Nagyon nagy mennyiség. Napi milliós API-hívások esetén a hívásalapú árképzés meghaladhatja a szerveres költségeket. Ilyen skálán a saját infrastruktúra ésszerű.
Termékintegráció. Ha PII-felismerést építesz be saját termékbe, és teljes kontrollt igényelsz, az egyedi nyílt forráskódú megoldás elfogadható.
Meglévő DevOps. Olyan csapatoknak, amelyek platformcsapattal rendelkeznek és már sok szolgáltatást üzemeltetnek, kisebb a hozzáadott költség. Az infrastruktúra náluk elsüllyedt költség.
Mindenki másnak — megfelelőségi csapatoknak, startupoknak, DevOps nélküli csapatoknak — a felügyelt SaaS az egyértelmű választás. Lásd a biztonsági megfelelőségi áttekintőt, ahol részletezzük, hogyan felel meg a tárolt feldolgozás a vállalati igényeknek.
Összefoglalás
A nyílt forráskódú eszközöknek vannak licencben nem szereplő költségei. Ennél az eszköztípusnál a legnagyobb költség a mérnöki munkaidő. Beállítás: 40–80 óra. Éves karbantartás: 60–120 óra. Normál óradíjak mellett a saját üzemeltetés 20–75-szöröse kerül egy felügyelt szolgáltatáshoz képest.
A megfelelő kérdés nem az, hogy „mennyibe kerül a szoftver?”. Az, hogy „mennyibe kerül a futtatása?”. A legtöbb csapat számára erre a válaszra a felügyelt SaaS mutat rá.
Források
Microsoft Presidio GitHub: Issue-k és beállítási dokumentáció. VERIFIED-EXTERNAL.
Ploomber: Presidio éles üzemeltetési útmutató. VERIFIED-EXTERNAL.
GDPR 32. cikk: A megfelelő biztonság technikai intézkedései. VERIFIED-EXTERNAL.