Od 6 týdnů DevOps pekla k 3denní integraci: Případ pro spravovaná PII API
Obchodní případ pro budování vs. nákup PII anonymizační infrastruktury je zřídka analyzován důsledně. „Zdarma" open-source a vnímaná kontrola vlastněné infrastruktury činí budování atraktivním — dokud nenarazíte na inženýrskou realitu.
Šest týdnů. Dva inženýři. Čtyři neúspěšné pokusy o nasazení. Inženýrský tým zdravotnické SaaS společnosti strávil toto na vlastním Presidiu před přechodem na spravované API, které nasazení nahradilo za 3 dny.
Co dokumentace Presidia neříká
Presidio je dobře zdokumentovaný projekt s komprehenzivními průvodci. Co dokumentace nezachycuje je komplexita produkčního nasazení:
Závislosti spaCy:
Presidio závisí na spaCy modelech pro NER. Pro vícejazyčnou EU podporu potřebujete modely de_core_news_sm, fr_core_news_sm, es_core_news_sm, it_core_news_sm a dalších. Každý model přidává 50–150 MB do paměti vašeho nasazení a každý vyžaduje testování kompatibility s vaší verzí Presidia.
Správa verzí: Presidio, spaCy a Python mají nezávislé verze vydání. spaCy 3.5 modely nejsou kompatibilní se spaCy 3.7. Presidio 2.2.3 závisí na spaCy verzích, které jsou ve sporu s jinými závislostmi. Dependency hell je reálný.
Produkční infrastruktura: Presidio běží jako mikroservisy — Presidio Analyzer a Presidio Anonymizer jsou oddělené služby. Pro produkci potřebujete:
- Load balancing pro oba services
- Zdravotní kontroly a automatický restart
- Škálování paměti (každý jazykový model = RAM)
- Monitorování a alerting
- Log agregaci pro auditní záznamy (GDPR/HIPAA)
Bezpečnost: Self-hosted Presidio nemá žádné vestavěné autentizační vrstvy. Pokud jsou vaše endpointy interně přístupné, potřebujete implementovat API autentizaci, rate limiting a přístupovou kontrolu sami.
Timeline skutečného nasazení
| Týden | Aktivita | Problém |
|---|---|---|
| 1 | Lokální nastavení vývojáře | Závislosti fungovaly |
| 2 | Stagingové nasazení | Modely spaCy konflikt verzí |
| 3 | Řešení závislostí | Prolomilo jiné závislosti |
| 4 | Bezpečnostní vrstva | Nový tým, žádné zkušenosti |
| 5 | Škálování testu zatížení | Úniky paměti při větším zatížení |
| 6 | Produkční nasazení | Nakonec, ale křehké |
Srovnání: Self-hosted vs. spravované API
| Faktor | Self-hosted Presidio | Spravované API (anonym.legal) |
|---|---|---|
| Čas nasazení | 6 týdnů | 3 dny |
| Inženýrský čas | 12 týdnů (2 inženýři) | 3 dny (1 inženýr) |
| Cena inženýrské práce | ~€18 000 | ~€450 |
| Roční provozní cena | €8 400 (infrastruktura) | €348 |
| Jazykový pokrytí | Závisí na nainstalovaných modelech | 48 jazyků, zahrnuty |
| Typy entit | ~40 výchozí | 285+ včetně EU |
| GDPR/HIPAA auditní záznamy | DIY implementace | Zahrnuty |
| SLA dostupnosti | Vaše odpovědnost | 99,9 % zaručeno |
Případ k zvážení
Pro startup nebo SMB bez dedikovaného DevOps:
- 12 inženýrských týdnů = €18 000 oportunní náklady
- Probíhající infrastruktura: €700/měsíc (server, monitoring)
- Roční celkové náklady: €26 400
Oproti spravovanému API:
- Integrace: 3 inženýrské dny = €450
- Roční předplatné: €348 (Basic) – €1 188 (Pro)
- Roční celkové náklady: €798 – €1 638
ROI přechodu na spravované API: záporné náklady ve srovnání se self-hosted — a dostanete více entity pokrytí, lepší dostupnost a připravené auditní záznamy.
Zdroje: Presidio GitHub · spaCy modely kompatibilita · GDPR článek 32 — technická opatření