Warum Excel Ihr riskantester Dateityp ist
Excel-Dateien gehören in den meisten Unternehmen zu den größten DSGVO-Risiken. Medizinische Unterlagen enthalten pro Zeile oft sensiblere Daten. Aber Tabellen sammeln personenbezogene Daten still an — und Compliance-Teams übersehen sie oft.
Drei Dinge machen Excel-Dateien schwer handhabbar.
Volumen: Eine XLSX-Datei kann 50.000 Zeilen und 100 Spalten enthalten. Das sind fünf Millionen Zellen. Keine manuelle Prüfung kann alle kontrollieren.
Rasterstruktur: Text fließt in eine Richtung. Excel verteilt Daten über Zeilen und Spalten. Personenbezogene Daten können überall in diesem Raster versteckt sein.
Gemischte Inhalte: Gehaltsgruppen, Abteilungscodes und Jobbewertungen liegen in derselben Datei wie Sozialversicherungsnummern und E-Mail-Adressen. Alles zu löschen macht die Datei unbrauchbar.
Lange Aufbewahrung: Mitarbeiterlisten und Kundendatenbanken bleiben jahrelang in Excel-Dateien. DSGVO Art. 5(1)(e) fordert, Daten nur „so lange wie nötig" zu speichern. Dateien, die „nützlich sein könnten", bleiben oft weit über diesen Punkt hinaus erhalten.
Warum normale Textscans bei Tabellen versagen
Textanalyse-Tools wurden für Dokumente gebaut. Bei Tabellen versagen sie auf vorhersehbare Weisen.
Das SSN-als-Zahl-Problem
Excel speichert Sozialversicherungsnummern ohne Bindestriche (123456789) als normale Zahlen — nicht als Text. Ein Scanner, der nach dem Muster ###-##-#### sucht, findet sie nicht. Ein gutes Tool muss wissen, dass eine 9-stellige Zahl in einer Spalte namens „SSN" eine Sozialversicherungsnummer ist.
Das Datum-als-Zahl-Problem
Excel speichert Daten intern als Seriennummern. Der 6. Februar 2024 ist die Nummer 45329. Ein CSV-Export zeigt „45329" in einer Spalte „Geburtsdatum". Ein Scanner muss diese Zahl erst in ein Datum umrechnen, bevor er den Wert erkennen kann.
Das Teilweise-SSN-Problem
Einige Systeme zeigen nur die letzten vier Stellen einer SSN (***-**-1234). Die vollständige Nummer liegt in einer gesperrten Spalte. Der Teilwert muss dennoch anonymisiert werden — auch wenn er nicht wie eine vollständige SSN aussieht.
Das Formel-PII-Problem
Einige Zellen bauen personenbezogene Daten aus anderen Zellen zusammen. Eine Zelle mit =CONCATENATE(B2;" ";C2) zeigt einen vollständigen Namen. Wenn man Spalten B und C löscht, ist der Name in der Formelzelle noch sichtbar. Tools, die nur gespeicherte Werte lesen — keine Formelverknüpfungen — lassen personenbezogene Daten nach der Bereinigung stehen.
Das Mehrblatt-Problem
Eine große Arbeitsmappe hat vielleicht fünf Blätter: Kundenliste, Bestellungen, Support-Tickets, Abrechnung und Analyse. Kundennamen erscheinen auf allen fünf. „John Smith" auf einem Blatt muss auf jedem anderen Blatt denselben Token erhalten — „PERSON_0047" — nicht zwei verschiedene Token, die Datensatzverknüpfungen zerstören.
Spaltenüberschriften als Erkennungssignal
Die wichtigste Verbesserung bei der PII-Erkennung in Tabellen ist die Analyse der Spaltenüberschriften.
Eine Spalte mit dem Namen „SSN" sagt dem Tool, dass alle Werte in dieser Spalte Sozialversicherungsnummern sind. Das gilt auch dann, wenn Werte unvollständig, ungewöhnlich formatiert oder als Zahlen gespeichert sind.
| Spaltenüberschrift | Signal |
|---|---|
| SSN / Social Security / Steuer-ID | 9-stellige Zahlen als SSN behandeln |
| E-Mail / E-Mail-Adresse | Auch teilweise E-Mail-Muster erkennen |
| Telefon / Mobil / Handy | Jedes Telefonformat akzeptieren |
| Geburtsdatum / DOB / Birthday | Seriennummern in Daten umrechnen |
| Vorname / Nachname / Vollständiger Name | Schwelle für Namenserkennung senken |
| Adresse / Straße / Stadt / PLZ | Geografische Felder kombinieren |
| Patienten-ID / Aufnahmenummer | Gesundheits-ID-Muster anwenden |
Spaltenkontext ersetzt keine Inhaltsscans. Er ergänzt sie. Eine Spalte „SSN" mit 100 Werten: Inhaltsscans finden 99 korrekt formatierte. Spaltenkontext findet den einen ungewöhnlichen.
Struktur behalten, Namen entfernen
Das Ziel in den meisten Excel-DSGVO-Fällen ist nicht, die Datei zu zerstören. Es geht darum, personenbezogene Daten zu entfernen und dabei die Teile zu erhalten, die die Datei nützlich machen.
Für eine 15.000-Zeilen-Mitarbeiterdatei braucht ein Compliance-Officer:
Entfernen:
- Mitarbeiternamen → PERSON_XXXX-Token
- Sozialversicherungsnummern → REDACTED
- E-Mail-Adressen → REDACTED
- Telefonnummern → REDACTED
- Privatadressen → REDACTED
Behalten:
- Abteilungscodes
- Berufsbezeichnungen (allgemeine Rollen)
- Gehaltsgruppen (breite Kategorien)
- Leistungspunkte (Gruppendaten)
- Eintrittsdaten (für Betriebszugehörigkeitsstatistiken)
- Managercodes (wenn pseudonymisiert)
Ein Tool, das zwischen „Daten, die Personen benennen" und „Daten, die Jobs beschreiben" unterscheidet, liefert eine Datei, die für HR-Analysen nutzbar bleibt — und DSGVO-Anforderungen zur Datensparsamkeit erfüllt.
Praxisfall: Personalübergang bei einer Übernahme
Ein übernehmdes Unternehmen erhält Mitarbeiterdaten des Zielunternehmens: eine XLSX-Datei mit 15.000 Zeilen und 40 Spalten. Die Datei muss an eine externe HR-Firma zur Leistungsplanung. Die DSGVO erlaubt nur die für diese Aufgabe notwendigen Daten.
Vor der Verarbeitung: 40 Spalten mit vollständigen Namen, SSNs, E-Mails, Privatadressen, Notfallkontakten und Bankdaten.
Nach der spaltenbasierten Verarbeitung:
- 12 Spalten identifizieren Personen direkt (Namen, SSNs, E-Mails, Telefon, Adressen, Bankdaten): durch konsistente Token ersetzt
- 3 Spalten identifizieren Personen indirekt (Mitarbeiter-ID, Managercode, Jobcode): durch pseudonyme Token ersetzt, die innerhalb der Datei einheitlich sind
- 25 Spalten sind aggregierte Daten (Gehaltsgruppe, Abteilung, Dienstzeit, Stufe): unverändert gelassen
Zeit: 8 Minuten für 600.000 Zellen
Ausgabe: Gleiches XLSX-Layout, 40 Spalten, 15 anonymisiert, 25 unverändert
Prüfprotokoll: Zellengenauer Nachweis jeder Aktion mit Entitätstyp, Konfidenzwert und verwendetem Spaltensignal
Die HR-Firma erhält einen vollständigen Datensatz für ihre Arbeit — ohne Namen oder IDs. Die Compliance-Akte erhält den Nachweis, dass nur die richtigen Daten geteilt wurden.
Diese Herausforderung ist nicht auf Excel beschränkt. Jedes Dateiformat versagt auf seine eigene Weise. Siehe wie Formatfragmentierung die PII-Erkennung beeinflusst.
Drei DSGVO-Art.-5-Regeln, ein Prozess
Strukturierte Tabellenblatt-Anonymisierung erfüllt gleichzeitig drei Regeln.
Datensparsamkeit (Art. 5(1)(c)): Nur die für die Aufgabe nötigen Spalten gehen an den Empfänger. Identifizierende Spalten werden bereinigt.
Speicherbegrenzung (Art. 5(1)(e)): Die Originaldatei bleibt für gesetzliche Aufbewahrungsfristen. Eine saubere Kopie wird für die Weitergabe erstellt — mit kürzeren oder keinen Aufbewahrungsanforderungen.
Integrität und Vertraulichkeit (Art. 5(1)(f)): Keine identifizierenden Daten verlassen die Kontrollzone. Nur saubere Kopien werden geteilt.
Das Prüfprotokoll aus dem Prozess ist auch Ihr Art.-5(2)-Nachweis. Es zeigt, wie jede Regel für jede Datei eingehalten wurde.
Wenn Ihr Team mit DSARs oder großen Datenexporten arbeitet, gilt dieselbe Logik auf API-Ebene. Siehe wie DSGVO-Datensparsamkeit in Echtzeit-APIs funktioniert.
Für Teams mit hohem Volumen und engen Fristen, siehe DSGVO-DSAR-Stapelverarbeitung im großen Maßstab.