Zurück zum BlogDSGVO & Compliance

DSGVO und Archive von Legacy-Dokumenten: So verarbeiten Sie 80.000 gescannte Dokumente, von denen Sie dachten, sie seien unberührbar

Das Recht auf Löschung gemäß der DSGVO gilt für personenbezogene Daten 'unabhängig vom Format'. Bildbasierte PDFs aus Papierarchiven sind nicht ausgenommen. So adressiert die PII-Erkennung auf Basis von OCR die Lücke bei Legacy-Dokumenten.

March 7, 20267 min Lesezeit
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Das Problem des Legacy-Archivs, über das niemand spricht

Organisationen, die DSGVO-Compliance-Audits durchführen, entdecken häufig dieselbe Kategorie von versteckten Risiken: bildbasierte PDF-Archive aus Zeiten, bevor Digitalisierungsprogramme implementiert wurden.

Rechtsanwaltskanzleien mit 20 Jahren gescannten Mandantenakten. Gesundheitsdienstleister mit Jahrzehnten gescannter Patientenaufnahmeformulare. Regierungsbehörden mit gescannten historischen Aufzeichnungen. Banken mit gescannten Kreditanträgen und Kontodokumenten.

Diese Archive haben eine gemeinsame Eigenschaft: Die Dokumente sind als gescannte Bilder (Raster-PDF, TIFF oder JPEG) gespeichert, nicht als textbasierte digitale Dokumente. Es gibt keine Textebene, die durchsucht werden kann, keinen maschinenlesbaren Inhalt für Standard-PII-Tools zur Analyse. Für ein konventionelles Anonymisierungstool sind diese Dokumente unsichtbar.

Die gängige Fehlannahme: "Das sind nur Bilddateien — die DSGVO gilt nicht wirklich."

Der Text der DSGVO ist eindeutig. Artikel 17(1) gewährt betroffenen Personen das Recht auf Löschung personenbezogener Daten. Erwägungsgrund 26 bestätigt, dass die Anonymisierung personenbezogener Daten der Standard für Daten ist, die nicht mehr mit einer identifizierbaren natürlichen Person in Verbindung stehen. Keine der Bestimmungen enthält eine Ausnahme für papierbasierte Bildformate.

Eine Kanzlei, die auf eine Anfrage zur Löschung eines Mandanten, der vor 15 Jahren bedient wurde, nicht reagieren kann — weil die 15 Jahre alten Mandantenakten nur als gescannte Bild-PDFs existieren — hat eine Compliance-Lücke in Bezug auf die DSGVO, keine Ausnahme.

So funktioniert die bildbasierte PII-Erkennung

Die technische Pipeline für die bildbasierte Dokumenten-PII-Erkennung integriert zwei Phasen:

Phase 1: Optische Zeichenerkennung (OCR)

  • Eingabe: gescanntes PDF oder Bilddatei
  • OCR-Engine extrahiert Text aus dem gescannten Bild
  • Ausgabe: maschinenlesbarer Text mit Positionskoordinaten
  • Herausforderung: Handschrift, schlechte Scanqualität, verblasste Tinte und alte Schriftarten verringern die OCR-Genauigkeit

Phase 2: NLP PII-Erkennung

  • Eingabe: von OCR extrahierter Text
  • Named Entity Recognition (NER) identifiziert Personennamen, Organisationen, Standorte
  • Mustererkennung identifiziert SSNs, Telefonnummern, E-Mail-Adressen, Kontonummern
  • Ausgabe: erkannte PII-Entitäten mit Vertrauensbewertungen und Positionsreferenzen

Phase 3: Anonymisierung

  • Erkannte Entitäten werden im extrahierten Textoutput anonymisiert
  • Für Bild-PDFs: die Ausgabe ist ein anonymisiertes Textdokument (das ursprüngliche Bild wird nicht verändert — eine Bildänderung würde PDF-Rotationswerkzeuge erfordern)
  • Der anonymisierte Text ermöglicht DSAR-Antworten, die Erfüllung von Löschanfragen und die Dokumentation der Compliance

Die OCR-Qualität ist die primäre technische Einschränkung. Für gut gedruckte Dokumente erreichen moderne OCR-Engines eine Zeichen-Genauigkeit von 98-99%. Bei Handschrift oder degradierten Scans kann die Genauigkeit 85-92% betragen. Für PII-Erkennungszwecke ist die Entitätsebene Genauigkeit (korrekte Identifizierung, dass ein Name im Dokument erscheint, selbst wenn einzelne Zeichen geringfügige Fehler aufweisen) typischerweise höher als die Zeichenebene Genauigkeit.

Praktische Verarbeitung großer Archive

Für Organisationen mit großen Legacy-Archiven sieht der operative Workflow folgendermaßen aus:

Inventarphase:

  • Katalogisieren Sie alle bildbasierten PDF-Archive nach Quellsystem und Datumsbereich
  • Schätzen Sie das Volumen und priorisieren Sie nach Löschrisiko (zuerst mandantenbezogene Aufzeichnungen)

Batch-Verarbeitung:

  • Verarbeiten Sie Archive in Batches (5.000-10.000 Dateien pro Batch sind typisch)
  • OCR + PII-Erkennung läuft asynchron
  • Ausgabe: PII-Erkennungsberichte pro Datei und anonymisierte Textauszüge

Erfüllung des Rechts auf Löschung:

  • Die betroffene Person reicht eine Löschanfrage mit Namen und relevantem Zeitraum ein
  • Durchsuchen Sie anonymisierte Textauszüge nach pseudonymisierten Tokens, die mit der betroffenen Person verknüpft sind
  • Identifizieren Sie spezifische Dokumente, die die Aufzeichnungen der betroffenen Person enthalten
  • Verarbeiten Sie diese spezifischen Dokumente zur Schwärzung (Änderung des ursprünglichen Bild-PDF)
  • Dokumentieren Sie die Löschaktion

Laufende Compliance:

  • Neue gescannte Dokumente werden vor der Archivierung durch dieselbe Pipeline verarbeitet
  • PII-Erkennungsberichte werden als Nachweis für die DSGVO Artikel 30 Aufzeichnungen über Verarbeitungstätigkeiten aufbewahrt

Anwendungsfall: Kanzlei 20-Jahres-Archiv

Eine Kanzlei, die ein DSGVO-Audit durchführte, entdeckte 80.000 bildbasierte PDF-Mandantenverträge, die zwischen 1998 und 2010 gescannt wurden. Standard-PII-Tools lieferten null Erkennungen — das bildbasierte Format war unsichtbar.

Das Compliance-Problem war konkret: 15 ehemalige Mandanten hatten in den letzten 12 Monaten Löschanfragen eingereicht. Die Antwort der Kanzlei: "Wir können nicht bestätigen, dass Ihre Daten gelöscht wurden, da unsere historischen Aufzeichnungen im Bildformat vorliegen, das wir nicht verarbeiten können." Dies ist keine konforme Antwort gemäß Artikel 17 der DSGVO.

Verarbeitungsansatz:

  • OCR + PII-Erkennung auf allen 80.000 Dokumenten in Batches von 5.000
  • Verarbeitungszeit: etwa 3 Wochen Batch-Verarbeitung
  • Ergebnis: 80.000 anonymisierte Textauszüge mit PII-Erkennungsberichten pro Datei
  • Durchsuchbarer Index der erkannten Entitäten, die mit Dokumenten-IDs verknüpft sind

Erfüllung der Löschanfrage nach der Verarbeitung:

  • Durchschnittliche Zeit zur Identifizierung von Dokumenten für eine spezifische betroffene Person: 4 Minuten (Suche in anonymisierten Textauszügen)
  • Dokumentenzahl pro Löschanfrage: durchschnittlich 6-8 Dokumente
  • Schwärzung der identifizierten Dokumente: 20-30 Minuten pro Anfrage

Früher unmögliche Compliance-Verpflichtung: erfüllt. Die 15 ausstehenden Löschanfragen wurden innerhalb von 30 Tagen nach Abschluss der Archivverarbeitung gelöst.

OCR-Einschränkungen und Qualitätsmanagement

Eine ehrliche Bewertung der OCR-basierten PII-Erkennung für Legacy-Dokumente erfordert die Anerkennung von Einschränkungen:

Genauigkeit der Handschrift: Handschriftliche Dokumente (persönliche Erklärungen, von Hand ausgefüllte Antragsformulare) haben eine niedrigere OCR-Genauigkeit als gedruckte Dokumente. PII-Erkennung auf handschriftlichem Inhalt erfordert eine Anpassung der Vertrauensschwelle.

Degradierte Scanqualität: Dokumente, die mit niedriger Auflösung oder schlechter Belichtung gescannt wurden, haben eine reduzierte OCR-Genauigkeit. Vorverarbeitung (Kontrastverbesserung, Entzerrung) kann die Ergebnisse verbessern.

Ungewöhnliche Schriftarten und Formate: Vor-digitale Schriftarten, rechtliche Dokumentenformate mit ungewöhnlichen Layouts und mehrspaltige Dokumente können eine niedrigere OCR-Genauigkeit aufweisen.

Einstellung der Qualitätsgrenze: Für die Compliance-Dokumentation ist es angemessen, Dokumente nach OCR-Vertrauen zu klassifizieren: hohe Vertrauenswürdigkeit (>95% Seitenaufrichtigkeit) geeignet für automatisierte Verarbeitung; mittlere Vertrauenswürdigkeit (80-95%) geeignet für automatisierte Verarbeitung mit menschlicher Überprüfung der markierten Entitäten; niedrige Vertrauenswürdigkeit (<80%) erfordert manuelle Überprüfung.

Für Organisationen mit großen Archiven von degradierten historischen Dokumenten bietet ein hybrider Ansatz — automatisierte Verarbeitung für hochvertrauenswürdige Dokumente, manuelle Überprüfungswarteschlange für niedrigvertrauenswürdige Dokumente — einen praktischen Durchsatz, während die Compliance-Qualität aufrechterhalten wird.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.