Das Problem, ein Compliance-Risiko zu lösen, indem man ein anderes schafft
Organisationen, die das Risiko von Datenlecks durch KI-Tools internalisiert haben, setzen oft eine logisch erscheinende Lösung um: Anonymisierung sensibler Inhalte, bevor sie KI-Anbietern zugeführt werden, unter Verwendung von permanenter oder einseitiger Anonymisierung, die nicht rückgängig gemacht werden kann.
Die Logik ist auf der Sicherheitsseite schlüssig. Die Analyse von Cyberhaven für das vierte Quartal 2025 ergab, dass 34,8 % der Inhalte, die an ChatGPT übermittelt werden, sensible Informationen enthalten. Die Forschung des Ponemon Institute aus dem Jahr 2024 stellte fest, dass die durchschnittlichen Kosten eines KI-Datenlecks 2,1 Millionen US-Dollar betragen. Forschungen von eSecurity Planet und Cyberhaven ergaben, dass 77 % der Mitarbeiter wöchentlich sensible Daten mit KI-Tools teilen. Das Risiko ist real, häufig und kostspielig.
Aber permanente Anonymisierung – irreversible einseitige Hashing, destruktive Schwärzung oder Pseudonymisierung ohne Schlüsselaufbewahrung – löst das Sicherheitsproblem der KI, während sie ein anderes schafft: die Spoliation von Beweismitteln.
Für Organisationen, die rechtlichen Auseinandersetzungen, regulatorischen Untersuchungen oder Entdeckungsverpflichtungen unterliegen, kann die permanente Zerstörung der Fähigkeit, originale Daten aus ihrer anonymisierten Darstellung wiederherzustellen, unter den bundesstaatlichen und staatlichen Entdeckungsregeln als Spoliation angesehen werden. Ein Dokument, das dauerhaft anonymisiert wurde und aus dem originale Informationen nicht wiederhergestellt werden können, kann als zerstörtes Beweismittel behandelt werden.
Die Datenfreigabeskala, die dies dringend macht
Die wöchentliche Freigabewrate von 77 % legt den Umfang fest. Mitarbeiter aus verschiedenen Branchen – Recht, Gesundheitswesen, Finanzdienstleistungen, Technologie – reichen routinemäßig arbeitsbezogene Inhalte bei KI-Tools ein.
Diese Inhalte umfassen:
- Kundenkommunikationen und Korrespondenz
- Vertragsentwürfe und ausgehandelte Bedingungen
- Interne Strategiediskussionen und Geschäftspläne
- Finanzprognosen und Modellierungsdaten
- Rechtliche Forschungsunterlagen und Fallstrategien
- Patienteninformationen und klinische Dokumentation
- Mitarbeiterakten und HR-Kommunikation
Wenn eine Organisation permanente Anonymisierung als ihre Sicherheitskontrolle für KI implementiert, kann jedes Dokument, das im normalen Geschäftsverlauf durch diese Kontrolle geht, in einer Weise verändert werden, die seinen Beweiswert zerstört. Wenn eines dieser Dokumente für zukünftige Rechtsstreitigkeiten relevant wird – was für Organisationen in regulierten Branchen, die in großem Maßstab arbeiten, über einen mehrjährigen Zeitraum nahezu sicher ist – hat die Organisation potenziell spoliierte Beweismittel produziert.
Die Rückführbarkeitsanforderung der GDPR
Der regulatorische Rahmen der Europäischen Union für den Datenschutz behandelt die Rückführbarkeitsfrage ausdrücklich im Kontext der Pseudonymisierung.
GDPR Artikel 4(5) definiert Pseudonymisierung als "die Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne die Verwendung zusätzlicher Informationen nicht mehr einer bestimmten betroffenen Person zugeordnet werden können, vorausgesetzt, dass solche zusätzlichen Informationen getrennt aufbewahrt werden und technischen sowie organisatorischen Maßnahmen unterliegen, um sicherzustellen, dass die personenbezogenen Daten nicht einer identifizierten oder identifizierbaren natürlichen Person zugeordnet werden."
Die Definition erfordert, dass die "zusätzlichen Informationen" – der Schlüssel, der die Rückattribution ermöglicht – aufbewahrt werden. Pseudonymisierte Daten unter der GDPR sind Daten, die mit separat gespeicherten Schlüsseln wieder identifiziert werden können. Daten, die nicht wieder identifiziert werden können, sind unter der GDPR nicht pseudonymisiert – sie sind anonymisiert, und die Unterscheidung der GDPR ist für Compliance-Zwecke wichtig.
Die Richtlinien 05/2022 des Europäischen Datenschutzausschusses zur Verwendung von Pseudonymisierung bestätigen, dass Rückführbarkeit ein definitionsgemäßes Erfordernis der Pseudonymisierung unter der Verordnung ist. Organisationen, die permanente einseitige Anonymisierung implementieren, setzen nicht die Pseudonymisierung um, wie sie die GDPR definiert – sie setzen Anonymisierung um. Die Compliance-Auswirkungen unterscheiden sich: Pseudonymisierte Daten behalten einige GDPR-Verpflichtungen, während wirklich anonymisierte Daten möglicherweise außerhalb des Geltungsbereichs der GDPR fallen, aber die operationale Unterscheidung ist ebenso bedeutend – pseudonymisierte Daten können für legitime Zwecke, einschließlich rechtlicher Entdeckung, wiederhergestellt werden, während dauerhaft anonymisierte Daten dies nicht können.
Der Spoliationsrahmen der Bundesregeln
Nach den Bundesregeln der Zivilprozessordnung haben die Parteien eines Rechtsstreits die Pflicht, Dokumente und elektronisch gespeicherte Informationen zu bewahren, die für bevorstehende oder tatsächliche Rechtsstreitigkeiten relevant sein könnten. Diese Pflicht tritt in Kraft, wenn ein Rechtsstreit vernünftigerweise erwartet wird – nicht, wenn der Rechtsstreit eingereicht wird.
Regel 37(e) gibt den Gerichten die Befugnis, Sanktionen zu verhängen, wenn eine Partei es versäumt, elektronisch gespeicherte Informationen zu bewahren, die hätte bewahrt werden müssen, und das Versäumnis einem anderen Partei schadet. Sanktionen können umfassen:
- Vermutete nachteilige Schlussfolgerungsanweisungen (die Jury wird angewiesen, anzunehmen, dass die zerstörten Beweismittel für die spoliierende Partei nachteilig gewesen wären)
- Ausschluss von Beweismitteln
- Fallentscheidende Sanktionen in schwerwiegenden Fällen
Die Spoliationsanalyse im Kontext der permanenten Anonymisierung funktioniert wie folgt: Wenn eine Organisation einen KI-Workflow verwendet, der Dokumente im normalen Geschäftsverlauf dauerhaft anonymisiert, und diese Dokumente später für einen Rechtsstreit relevant werden, hat die Organisation diese Dokumente in einer Weise modifiziert, die verhindert, dass ihr ursprünglicher Inhalt wiederhergestellt werden kann. Wenn die Modifikation nach dem Zeitpunkt erfolgte, an dem die Pflicht zur Bewahrung in Kraft trat – oder wenn die Organisation wusste oder hätte wissen müssen, dass die Art der anonymisierten Dokumente für vernünftigerweise erwartete Rechtsstreitigkeiten relevant werden könnte – sieht sich die Organisation einem Spoliationsrisiko ausgesetzt.
Das ist nicht hypothetisch. Organisationen in Branchen mit laufender regulatorischer Überwachung, wiederkehrender Rechtsstreitrisiken oder Vertragsstreitigkeiten sehen sich einem kontinuierlichen Zustand der vernünftigen Erwartung von Rechtsstreitigkeiten für breite Kategorien von Dokumenten gegenüber. Die Implementierung von permanenter Anonymisierung über Dokumenten-Workflows hinweg, ohne Ausnahmen für potenziell relevante Materialien, ist ein systematisches Spoliationsrisiko.
Die technische Unterscheidung: Rückführbar vs. Irreversibel
Die technische Unterscheidung zwischen rückführbarer und irreversibler Anonymisierung ist architektonisch, nicht inkrementell.
Irreversible Anonymisierung (Hashing, permanente Ersetzung, destruktive Schwärzung) transformiert Daten in einer Weise, die nicht rückgängig gemacht werden kann. Das SHA-256-Hashing eines Kundennamens erzeugt einen Hash fester Länge, aus dem der Name nicht abgeleitet werden kann. Permanente Schwärzung ersetzt Inhalte in einer Weise, die den zugrunde liegenden Text zerstört.
Rückführbare Pseudonymisierung (Token-Ersetzung mit Schlüsselaufbewahrung, AES-256-GCM-Verschlüsselung) transformiert Daten in einer Weise, die mit separat gespeicherten Informationen rückgängig gemacht werden kann. Ein Kundenname, der durch ein strukturiertes Token ersetzt wird, kann mit dem ursprünglichen Namen unter Verwendung einer Zuordnungstabelle wieder in Verbindung gebracht werden. AES-256-GCM-verschlüsselte Inhalte können mit dem entsprechenden Schlüssel entschlüsselt werden. Der ursprüngliche Inhalt bleibt wiederherstellbar.
Für Sicherheitszwecke der KI – das Verhindern, dass sensible Daten in verwendbarer Form zu KI-Anbietern gelangen – erreichen beide Ansätze dasselbe Ziel. Das KI-Modell verarbeitet Tokens oder pseudonymisierte Inhalte und sieht niemals die ursprünglichen sensiblen Daten.
Für die rechtliche Compliance – die Fähigkeit, ursprüngliche Inhalte für Entdeckung, regulatorische Antworten oder legitime Geschäftszwecke wiederherzustellen – ist nur rückführbare Pseudonymisierung kompatibel. Irreversible Ansätze beseitigen die Wiederherstellungskapazität und schaffen das oben beschriebene Spoliationsrisiko.
Die konforme Architektur
Die Architektur, die sowohl die Sicherheit der KI als auch die Compliance bei der Entdeckung berücksichtigt, verwendet rückführbare AES-256-GCM-Pseudonymisierung:
- Dokumente werden vor der Einreichung bei KI-Tools verarbeitet
- Sensible Entitäten – Namen, Kontonummern, Identifikatoren, PHI, privilegierte Inhalte – werden durch strukturierte Tokens ersetzt
- Die Zuordnung von Token zu Originalen wird separat mit Zugangskontrollen aufbewahrt, die der Datensensibilität angemessen sind
- Die KI-Verarbeitung erfolgt auf der tokenisierten Version – das KI-Modell erhält niemals wiederherstellbare sensible Inhalte
- Ergebnisse werden unter Verwendung der gespeicherten Zuordnung für legitime Geschäftsnutzung ent-tokenisiert
- Die Zuordnung unterliegt der Rechtsstreitbewahrung, wenn die Entdeckungsverpflichtungen in Kraft treten
Unter dieser Architektur wird der ursprüngliche Inhalt niemals zerstört. Der KI-Anbieter erhält ihn niemals in verwendbarer Form. Die Token-Zuordnung bewahrt die Fähigkeit, ursprüngliche Inhalte wiederherzustellen, wenn dies rechtlich erforderlich ist. Das Spoliationsrisiko wird beseitigt, da keine Beweise zerstört werden – nur vorübergehend in einer rückführbaren Weise pseudonymisiert.
Die Anforderung zur Pseudonymisierung gemäß der GDPR unter Artikel 4(5) wird erfüllt: Die zusätzlichen Informationen (Token-Zuordnung) werden separat mit geeigneten technischen und organisatorischen Maßnahmen aufbewahrt. Die Anforderung zur Bewahrung gemäß den Bundesregeln wird erfüllt: ursprüngliche Inhalte können wiederhergestellt werden, wenn die Rechtsstreitbewahrung gilt.
Organisationen, die Sicherheitskontrollen für KI implementieren, stehen vor einer binären Wahl: dauerhaft anonymisieren und ein Entdeckungsrisiko schaffen oder rückführbar pseudonymisieren und sowohl Sicherheits- als auch Compliance-Anforderungen gleichzeitig erfüllen. Die durchschnittlichen Kosten von 2,1 Millionen US-Dollar für KI-Datenlecks, die die Entscheidung für Sicherheitskontrollen antreiben, sollten gegen die potenziellen Kosten von Spoliationssanktionen abgewogen werden – die in Fällen mit erheblichen finanziellen Einsätzen die gleiche oder größere Größenordnung erreichen können.
Quellen: