Die wahren Kosten von „kostenloser" PII-Erkennung
„Es ist kostenlos" ist keine Kostenanalyse. Es ist ein Lizenzpreis — ein Faktor unter vielen.
Microsoft Presidio kostet €0 zum Herunterladen. Die Software ist Open-Source. Aber der produktive Betrieb bei einer Versicherung kostet im ersten Jahr über €13.000. Diese Lücke ist Engineering-Zeit.
Was ein Produktivbetrieb braucht
Die Einrichtung für den Produktivbetrieb dauert 40–80 Stunden. So verteilt sich diese Zeit.
Docker-Setup: 4–8 Stunden. Das Tool nutzt mehrere Container. Einen Analyzer-Service, einen Anonymizer-Service und optional einen Image-Redactor. Die Container miteinander kommunizieren zu lassen, ist schwierig. GitHub-Issues zeigen: das ist ein häufiger Fehlerpunkt.
Python-Setup: 2–4 Stunden. Die Bibliotheken haben strenge Versionsregeln. Konflikte sind häufig — besonders zwischen spaCy-Modellversionen und Python 3.8/3.9/3.10. GitHub zeigt Hunderte offener Issues zu diesem Thema.
Sprachmodell-Downloads: 2–4 Stunden. spaCy-Modelle reichen von 300 MB bis 1,4 GB pro Stück. Ein fünfsprachiges Setup benötigt 1,5–7 GB Speicher. Ladefehler bei Modellen gehören zu den häufigsten Supportanfragen.
Benutzerdefinierte Recognizer: 8–16 Stunden. Der Standard umfasst etwa 40 Entitätstypen. Meist US-Kennungen. EU-Deployments brauchen europäische Personalausweisdaten. Healthcare-Teams brauchen Krankenaktenformate. Jeder Typ erfordert Python-Code, YAML-Konfiguration und Tests.
API-Konfiguration: 4–8 Stunden. Die Produktionskonfiguration umfasst Timeouts, Authentifizierung, Rate Limits und Logging. Die offizielle Dokumentation ist dünn. Die meisten Teams suchen Antworten in GitHub-Threads.
Audit-Logging: 4–8 Stunden. Die DSGVO verlangt Nachweise der Datenverarbeitung. Das Tool hat standardmäßig kein Audit-Log. Teams müssen es als eigenen Code schreiben.
Team-Dokumentation: 4–8 Stunden.
Gesamte Ersteinrichtung: 28–52 Stunden à €100/Stunde = €2.800–5.200.
Jährliche Wartungskosten
Das Tool erscheint 2–4 Mal pro Jahr mit Updates. Große Releases haben APIs gebrochen. Auf dem neuesten Stand zu bleiben bedeutet: Änderungen verfolgen, im Staging testen und deployen.
spaCy-Modell-Updates kommen hinzu. Neue Modellversionen müssen erneut heruntergeladen und auf Genauigkeit geprüft werden.
Python-Abhängigkeitskonflikte kehren immer wieder. Ein sauberes Setup heute kann brechen, wenn nächsten Monat ein Sicherheitspatch erscheint.
Monitoring läuft dauerhaft. Container-Gesundheit, Speicherlecks und Neustart-Prozesse brauchen regelmäßige Aufmerksamkeit. spaCy-Modelle sind speicherintensiv.
Gesamte jährliche Wartung: 60–120 Stunden à €100/Stunde = €6.000–12.000.
Ein reales Fallbeispiel
Ein Compliance-Team einer Versicherung wollte Schadensunterlagen verarbeiten. Sie hatten zwei Junior-Dateningenieure und keinen DevOps-Support.
Woche 1. Die beiden Hauptcontainer konnten nicht miteinander kommunizieren. Drei Tage zur Lösung mit Hilfe von GitHub.
Woche 2. Modelle konnten in der Produktion nicht geladen werden. Die Speicherkonfiguration unterschied sich vom Dev-Setup. Zwei Tage Diagnose, ein weiterer Tag zur Lösung.
Woche 3. Eine benutzerdefinierte Regel für britische Nationalversicherungsnummern funktionierte in Tests, erzeugte aber auf echten Dokumenten falsche Treffer. Zwei weitere Tage Feinabstimmung.
Woche 4. Das Projekt wurde eskaliert. Drei Engineering-Wochen verbraucht. Noch nicht in Produktion.
Das Team testete dann anonym.legal. Erstes Dokument verarbeitet: 12 Minuten nach der Registrierung. Die Erkennung britischer Nationalversicherungsnummern war bereits eingebaut. Kein Setup nötig.
Sie wechselten zu anonym.legal Professional für €180/Jahr.
TCO-Vergleich für das erste Jahr:
- Selbstgehosteter Weg — 40–80 weitere Stunden zum Fertigstellen, dann €6.000–12.000/Jahr Wartung. Gesamt: €10.000–20.000.
- anonym.legal Professional — €180/Jahr. Deployment-Zeit: ~12 Minuten.
- Eingesparte Engineering-Stunden: ~132/Jahr à €100/Stunde = €13.200.
Das ist ein 70-facher Kostenunterschied im ersten Jahr.
Bei Teams, die zusätzlich mit False-Positive-Problemen kämpfen, empfehlen wir unseren Artikel über Presidios Präzisionsproblem.
Wann sich Selbsthosting lohnt
Managed SaaS gewinnt für die meisten Teams. Aber Selbsthosting passt in einige Fälle.
Datensouveränität. Manche Vorschriften oder Verträge verbieten das Senden von Daten nach außen. Unsere Desktop-App (anonym.plus) läuft vollständig offline. Keine Daten verlassen das Gerät. Gleiche Genauigkeit, kein Server nötig.
Sehr hohes Volumen. Millionen API-Aufrufe pro Tag können die Kosten pro Aufruf über die Serverkosten treiben. In dieser Größenordnung lohnt es sich, den Stack selbst zu betreiben.
Produktintegration. Sie bauen PII-Erkennung in Ihr eigenes Produkt ein und brauchen vollständige Kontrolle? Open-Source-Eigenentwicklung ist hier sinnvoll.
Bestehende DevOps. Teams mit einem Plattform-Team, das bereits viele Services betreibt, haben geringere zusätzliche Kosten. Infrastruktur ist für sie ein Sunk Cost.
Für alle anderen — Compliance-Teams, Startups, Teams ohne DevOps — ist Managed SaaS die klare Wahl. Siehe unsere Sicherheits- und Compliance-Übersicht für Details zur enterprise-tauglichen gehosteten Verarbeitung.
Fazit
Open-Source-Tools haben Kosten, die nicht im Lizenzpreis erscheinen. Bei diesem Typ Tool dominiert die Engineering-Zeit. Ersteinrichtung: 40–80 Stunden. Jährliche Pflege: 60–120 Stunden. Zu normalen Sätzen ist der selbstgehostete Weg 20–75x teurer als ein Managed Service.
Die richtige Frage lautet nicht „Was kostet die Software?" Sie lautet: „Was kostet der Betrieb?" Für die meisten Teams zeigt die Antwort klar auf Managed SaaS.
Quellen
Microsoft Presidio GitHub: Issues und Setup-Dokumentation. VERIFIED-EXTERNAL.
Ploomber: Presidio-Produktions-Deployment-Guide. VERIFIED-EXTERNAL.
DSGVO Artikel 32: Technische Maßnahmen für angemessene Sicherheit. VERIFIED-EXTERNAL.