Die Realität der Formatfragmentierung
Eine Anfrage zur Produktion rechtlicher Dokumente trifft ein. Die Produktion umfasst:
- PDF-Verträge aus dem Dokumentenmanagementsystem
- Word-Dokumente aus der rechtlichen Überprüfung
- Excel-Tabellen aus der Finanzabteilung
- CSV-Exporte aus dem CRM
- JSON-Protokolle aus dem API-Audit-Trail
Fünf Formate. Das aktuelle Toolkit der Kanzlei: Adobe Acrobat für die PDF-Retusche, ein Word-Makro für DOCX, die integrierte "Suchen und Ersetzen"-Funktion von Excel für XLSX, manuelle Überprüfung für CSV und nichts für JSON.
Das ist nicht ungewöhnlich. Ein Bericht von Everlaw zur E-Discovery von 2025 identifiziert die Formatfragmentierung als eine der größten betrieblichen Herausforderungen, wobei rechtliche Teams im Durchschnitt 3,2 verschiedene Tools für Dokumentenproduktionen mit gemischten Formaten verwenden. Der betriebliche Aufwand ist erheblich. Das Risiko für die Compliance ist noch größer.
Warum Tool-Fragmentierung Compliance-Lücken schafft
Die Verwendung unterschiedlicher Tools für verschiedene Formate schafft drei Compliance-Schwachstellen:
Inkonsistenz der Entitätsabdeckung: Die integrierte Retusche von Adobe Acrobat sucht nach expliziten Textzeichenfolgen – sie führt keine Entitätserkennung durch. Ein mit Acrobat produziertes PDF retuschiert nur Textzeichenfolgen, nach denen der Betreiber explizit sucht. Das Word-Makro erkennt nur die Entitätstypen, für die es programmiert wurde (typischerweise Namen und E-Mails, nicht alle 285+ Entitätstypen). Die Suchen-und-Ersetzen-Funktion von Excel erfasst nichts, was nicht explizit eingegeben wurde. Die gleiche SSN in einem PDF-Vertrag und einer Excel-Tabelle kann von zwei verschiedenen Tools mit zwei unterschiedlichen Erkennungsstandards behandelt werden.
Fragmentierung des Audit-Trails: Jedes Tool erzeugt sein eigenes Protokoll (oder gar kein Protokoll). Für eine GDPR-Anfrage zur Einsichtnahme von betroffenen Personen, bei der die Aufsichtsbehörde fragt: "Nachweisen, dass alle personenbezogenen Daten über diese Person identifiziert und angemessen behandelt wurden", ist es keine überzeugende Compliance-Erzählung, separate Audit-Protokolle von drei verschiedenen Tools zu haben, die unterschiedliche Teile eines Dokumentensatzes abdecken.
Konfigurationsdrift: Verschiedene Tools haben unterschiedliche Konfigurationen. Der PDF-Retusche-Standard, der vom rechtlichen Operationsteam vor sechs Monaten konfiguriert wurde, stimmt möglicherweise nicht mit den Word-Makro-Einstellungen überein, die letzte Woche von einem anderen Teammitglied aktualisiert wurden. Die Inkonsistenz ist unsichtbar, bis sie einen Produktionsfehler verursacht.
Die Anforderung an die Konsistenz ist nicht theoretisch. Gerichtliche Sanktionen für Fehler bei der E-Discovery-Produktion haben das Inkonsistenzproblem spezifisch angesprochen: unterschiedliche Standards auf unterschiedliche Dokumenttypen in derselben Produktion anzuwenden, ist ein Versagen des systematischen Prozesses, den Gerichte erwarten.
Die Konsistenzanforderung für DSARs
GDPR DSARs haben eine explizite Konsistenzanforderung, die im rechtlichen Standard verankert ist. Artikel 15 verlangt, dass die betroffene Person Informationen über "alle" personenbezogenen Daten erhält, nicht "alle personenbezogenen Daten in PDFs und die meisten personenbezogenen Daten in Word-Dokumenten."
Die DSAR-Leitlinien der ICO sind eindeutig: Organisationen müssen einen systematischen Ansatz zur Identifizierung aller personenbezogenen Daten, die für eine betroffene Person gehalten werden, über alle Systeme und Formate hinweg anwenden. Ein systematischer Ansatz erfordert definitionsgemäß eine konsistente Methodik – keine formatspezifischen Tools mit unterschiedlichen Standards.
Für DPA-Untersuchungen nach einer DSAR-Beschwerde wird der Prüfer fragen:
- Welcher Prozess wurde verwendet, um alle personenbezogenen Daten zu identifizieren?
- Welche Tools haben welche Dokumenttypen verarbeitet?
- Welche Entitätstypen wurden in jedem Format durchsucht?
- Welches Audit-Trail dokumentiert die Vollständigkeit der Antwort?
"Wir haben Adobe für PDFs, ein Makro für Word und die Suchfunktion von Excel für Tabellenkalkulationen verwendet, aber wir haben keine spezifischen Entitätstyp-Protokolle für jedes" ist keine zufriedenstellende Antwort auf die Fragen 3 und 4.
Der Vorteil einer einheitlichen Engine
Eine einheitliche Verarbeitungsengine behandelt alle Formate mit derselben Erkennungslogik, was ermöglicht:
Konfigurationsvorgaben, die einheitlich angewendet werden: Eine "DSAR EU Individual"-Vorgabe, die mit 32 Entitätstypen konfiguriert ist, verarbeitet ein PDF, DOCX, XLSX und CSV aus derselben DSAR mit identischer Entitätsabdeckung. Die SSN in der Excel-Tabelle wird mit demselben Vertrauensniveau überprüft wie die SSN im PDF-Vertrag.
Einzelner Audit-Trail: Ein Verarbeitungsprotokoll, das alle Dateien in einem Batch abdeckt, unabhängig vom Format. Der Auditbericht zeigt: Dateiname, Dateityp, erkannte Entitäten, Vertrauenswerte, ergriffene Maßnahmen – für jede Datei im Produktionssatz. Ein einzelnes Dokument liefert den Compliance-Nachweis für die gesamte Produktion.
Referentielle Integrität über Formate hinweg: Wenn "Sarah Johnson" in einem PDF-Vertrag, einem Word-Korrespondenzprotokoll und einer Excel-Kontotabelle erscheint, kann eine konsistente Pseudonymisierung über alle drei Formate hinweg ihren Namen durch dasselbe Token (PERSON_0001) ersetzen – was es der betroffenen Person ermöglicht, ihren eigenen Datensatz über die Produktion hinweg nachzuvollziehen.
Verarbeitung von Mischformat-Batches: 15 Dateien verschiedener Formate in einen einzigen Batch legen. Mit einer Vorgabe verarbeiten. 15 anonymisierte Ausgaben und einen konsolidierten Auditbericht erhalten. Der betriebliche Workflow ist erheblich einfacher als die Verwaltung von drei separaten Tool-Workflows.
Anwendung des FOIA durch Bundesbehörden
Der Vorstoß der US-Bundesregierung zur FOIA-Automatisierung 2025 nennt die Verarbeitung mehrerer Formate ausdrücklich als Schlüsselanforderung. Bundesbehörden erhalten FOIA-Anfragen, die Aufzeichnungen in jedem vorstellbaren Format umfassen – Legacy-Mainframe-Exporte in festbreiten Text, Word-Dokumente aus modernen Kollaborationssystemen, gescannte PDFs aus Papierarchiven und Datenbankexporte in CSV und JSON.
Das DOJ und HHS haben beide automatisierte Retuschierungssysteme getestet, weil die manuelle Verarbeitung mehrerer Formate nicht mit ihren Anfragevolumina skalierbar ist. Die Kernanforderung für diese Systeme: konsistente Anwendung derselben Ausnahmestandards über alle Formate hinweg, mit einem dokumentierten Audit-Trail.
Für Organisationen außerhalb der Bundesregierung, die ähnlichen Anforderungen an die Compliance mit mehreren Formaten gegenüberstehen, gilt dasselbe Prinzip: Konsistenz in der Behandlung über Formate hinweg ist die Grundlage für verteidigbare Compliance-Dokumentation.
Implementierung für die DSAR-Praxis einer Kanzlei
Eine mittelgroße Kanzlei, die GDPR DSARs für Unternehmenskunden bearbeitet, hat die einheitliche Formatverarbeitung für ihren DSAR-Antwort-Workflow implementiert:
Vorher:
- PDF-Verträge: Adobe Acrobat (manuelle Textsuche)
- DOCX-Korrespondenz: Word-Makro (nur Name + E-Mail)
- XLSX-Kontodaten: Excel Suchen-und-Ersetzen (manuelle Eingabe)
- CSV-Exporte: Manuelle Überprüfung
- Verarbeitungszeit pro DSAR: 8-12 Stunden
- Entitätstypen, die konsistent über alle Formate hinweg überprüft wurden: 2-3 (Name, E-Mail)
Nachher (einheitliche Engine, Batch-Verarbeitung):
- Alle Formate: einzelner Batch mit "DSAR EU Individual"-Vorgabe
- 32 Entitätstypen, die konsistent über alle Formate hinweg überprüft wurden
- Verarbeitungszeit pro DSAR: 45 Minuten (einschließlich Ausgabeüberprüfung)
- Einzelner Auditbericht pro DSAR zur Genehmigung durch den DPO
- Entitätstypen, die konsistent über alle Formate hinweg überprüft wurden: 32
Die Verbesserung der Compliance: Die Kanzlei kann nun eine konsistente Entitätsabdeckung über alle Dokumenttypen in einer DSAR-Produktion nachweisen, mit einem einzigen Auditdokument pro Antwort. Die 8-12 Stunden pro DSAR sind auf unter 1 Stunde gesunken – was es der Kanzlei ermöglicht, die DSAR-Compliance als skalierbaren Service anzubieten.
Quellen: