Warum Excel Ihr riskantester Dateityp ist

Excel-Dateien gehören in den meisten Unternehmen zu den größten DSGVO-Risiken. Medizinische Unterlagen enthalten pro Zeile oft sensiblere Daten. Aber Tabellen sammeln personenbezogene Daten still an — und Compliance-Teams übersehen sie oft.

Drei Dinge machen Excel-Dateien schwer handhabbar.

Volumen: Eine XLSX-Datei kann 50.000 Zeilen und 100 Spalten enthalten. Das sind fünf Millionen Zellen. Keine manuelle Prüfung kann alle kontrollieren.

Rasterstruktur: Text fließt in eine Richtung. Excel verteilt Daten über Zeilen und Spalten. Personenbezogene Daten können überall in diesem Raster versteckt sein.

Gemischte Inhalte: Gehaltsgruppen, Abteilungscodes und Jobbewertungen liegen in derselben Datei wie Sozialversicherungsnummern und E-Mail-Adressen. Alles zu löschen macht die Datei unbrauchbar.

Lange Aufbewahrung: Mitarbeiterlisten und Kundendatenbanken bleiben jahrelang in Excel-Dateien. DSGVO Art. 5(1)(e) fordert, Daten nur „so lange wie nötig" zu speichern. Dateien, die „nützlich sein könnten", bleiben oft weit über diesen Punkt hinaus erhalten.

Warum normale Textscans bei Tabellen versagen

Textanalyse-Tools wurden für Dokumente gebaut. Bei Tabellen versagen sie auf vorhersehbare Weisen.

Das SSN-als-Zahl-Problem

Excel speichert Sozialversicherungsnummern ohne Bindestriche (123456789) als normale Zahlen — nicht als Text. Ein Scanner, der nach dem Muster ###-##-#### sucht, findet sie nicht. Ein gutes Tool muss wissen, dass eine 9-stellige Zahl in einer Spalte namens „SSN" eine Sozialversicherungsnummer ist.

Das Datum-als-Zahl-Problem

Excel speichert Daten intern als Seriennummern. Der 6. Februar 2024 ist die Nummer 45329. Ein CSV-Export zeigt „45329" in einer Spalte „Geburtsdatum". Ein Scanner muss diese Zahl erst in ein Datum umrechnen, bevor er den Wert erkennen kann.

Das Teilweise-SSN-Problem

Einige Systeme zeigen nur die letzten vier Stellen einer SSN (***-**-1234). Die vollständige Nummer liegt in einer gesperrten Spalte. Der Teilwert muss dennoch anonymisiert werden — auch wenn er nicht wie eine vollständige SSN aussieht.

Das Formel-PII-Problem

Einige Zellen bauen personenbezogene Daten aus anderen Zellen zusammen. Eine Zelle mit =CONCATENATE(B2;" ";C2) zeigt einen vollständigen Namen. Wenn man Spalten B und C löscht, ist der Name in der Formelzelle noch sichtbar. Tools, die nur gespeicherte Werte lesen — keine Formelverknüpfungen — lassen personenbezogene Daten nach der Bereinigung stehen.

Das Mehrblatt-Problem

Eine große Arbeitsmappe hat vielleicht fünf Blätter: Kundenliste, Bestellungen, Support-Tickets, Abrechnung und Analyse. Kundennamen erscheinen auf allen fünf. „John Smith" auf einem Blatt muss auf jedem anderen Blatt denselben Token erhalten — „PERSON_0047" — nicht zwei verschiedene Token, die Datensatzverknüpfungen zerstören.

Spaltenüberschriften als Erkennungssignal

Die wichtigste Verbesserung bei der PII-Erkennung in Tabellen ist die Analyse der Spaltenüberschriften.

Eine Spalte mit dem Namen „SSN" sagt dem Tool, dass alle Werte in dieser Spalte Sozialversicherungsnummern sind. Das gilt auch dann, wenn Werte unvollständig, ungewöhnlich formatiert oder als Zahlen gespeichert sind.

Spaltenüberschrift	Signal
SSN / Social Security / Steuer-ID	9-stellige Zahlen als SSN behandeln
E-Mail / E-Mail-Adresse	Auch teilweise E-Mail-Muster erkennen
Telefon / Mobil / Handy	Jedes Telefonformat akzeptieren
Geburtsdatum / DOB / Birthday	Seriennummern in Daten umrechnen
Vorname / Nachname / Vollständiger Name	Schwelle für Namenserkennung senken
Adresse / Straße / Stadt / PLZ	Geografische Felder kombinieren
Patienten-ID / Aufnahmenummer	Gesundheits-ID-Muster anwenden

Spaltenkontext ersetzt keine Inhaltsscans. Er ergänzt sie. Eine Spalte „SSN" mit 100 Werten: Inhaltsscans finden 99 korrekt formatierte. Spaltenkontext findet den einen ungewöhnlichen.

Struktur behalten, Namen entfernen

Das Ziel in den meisten Excel-DSGVO-Fällen ist nicht, die Datei zu zerstören. Es geht darum, personenbezogene Daten zu entfernen und dabei die Teile zu erhalten, die die Datei nützlich machen.

Für eine 15.000-Zeilen-Mitarbeiterdatei braucht ein Compliance-Officer:

Entfernen:

Mitarbeiternamen → PERSON_XXXX-Token
Sozialversicherungsnummern → REDACTED
E-Mail-Adressen → REDACTED
Telefonnummern → REDACTED
Privatadressen → REDACTED

Behalten:

Abteilungscodes
Berufsbezeichnungen (allgemeine Rollen)
Gehaltsgruppen (breite Kategorien)
Leistungspunkte (Gruppendaten)
Eintrittsdaten (für Betriebszugehörigkeitsstatistiken)
Managercodes (wenn pseudonymisiert)

Ein Tool, das zwischen „Daten, die Personen benennen" und „Daten, die Jobs beschreiben" unterscheidet, liefert eine Datei, die für HR-Analysen nutzbar bleibt — und DSGVO-Anforderungen zur Datensparsamkeit erfüllt.

Praxisfall: Personalübergang bei einer Übernahme

Ein übernehmdes Unternehmen erhält Mitarbeiterdaten des Zielunternehmens: eine XLSX-Datei mit 15.000 Zeilen und 40 Spalten. Die Datei muss an eine externe HR-Firma zur Leistungsplanung. Die DSGVO erlaubt nur die für diese Aufgabe notwendigen Daten.

Vor der Verarbeitung: 40 Spalten mit vollständigen Namen, SSNs, E-Mails, Privatadressen, Notfallkontakten und Bankdaten.

Nach der spaltenbasierten Verarbeitung:

12 Spalten identifizieren Personen direkt (Namen, SSNs, E-Mails, Telefon, Adressen, Bankdaten): durch konsistente Token ersetzt
3 Spalten identifizieren Personen indirekt (Mitarbeiter-ID, Managercode, Jobcode): durch pseudonyme Token ersetzt, die innerhalb der Datei einheitlich sind
25 Spalten sind aggregierte Daten (Gehaltsgruppe, Abteilung, Dienstzeit, Stufe): unverändert gelassen

Zeit: 8 Minuten für 600.000 Zellen

Ausgabe: Gleiches XLSX-Layout, 40 Spalten, 15 anonymisiert, 25 unverändert

Prüfprotokoll: Zellengenauer Nachweis jeder Aktion mit Entitätstyp, Konfidenzwert und verwendetem Spaltensignal

Die HR-Firma erhält einen vollständigen Datensatz für ihre Arbeit — ohne Namen oder IDs. Die Compliance-Akte erhält den Nachweis, dass nur die richtigen Daten geteilt wurden.

Diese Herausforderung ist nicht auf Excel beschränkt. Jedes Dateiformat versagt auf seine eigene Weise. Siehe wie Formatfragmentierung die PII-Erkennung beeinflusst.

Drei DSGVO-Art.-5-Regeln, ein Prozess

Strukturierte Tabellenblatt-Anonymisierung erfüllt gleichzeitig drei Regeln.

Datensparsamkeit (Art. 5(1)(c)): Nur die für die Aufgabe nötigen Spalten gehen an den Empfänger. Identifizierende Spalten werden bereinigt.

Speicherbegrenzung (Art. 5(1)(e)): Die Originaldatei bleibt für gesetzliche Aufbewahrungsfristen. Eine saubere Kopie wird für die Weitergabe erstellt — mit kürzeren oder keinen Aufbewahrungsanforderungen.

Integrität und Vertraulichkeit (Art. 5(1)(f)): Keine identifizierenden Daten verlassen die Kontrollzone. Nur saubere Kopien werden geteilt.

Das Prüfprotokoll aus dem Prozess ist auch Ihr Art.-5(2)-Nachweis. Es zeigt, wie jede Regel für jede Datei eingehalten wurde.

Wenn Ihr Team mit DSARs oder großen Datenexporten arbeitet, gilt dieselbe Logik auf API-Ebene. Siehe wie DSGVO-Datensparsamkeit in Echtzeit-APIs funktioniert.

Für Teams mit hohem Volumen und engen Fristen, siehe DSGVO-DSAR-Stapelverarbeitung im großen Maßstab.

Quellen

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

Kostenlose Testversion starten Funktionen anzeigen

Excel und GDPR: So anonymisieren Sie...

Warum Excel Ihr riskantester Dateityp ist

Warum normale Textscans bei Tabellen versagen

Das SSN-als-Zahl-Problem

Das Datum-als-Zahl-Problem

Das Teilweise-SSN-Problem

Das Formel-PII-Problem

Das Mehrblatt-Problem

Spaltenüberschriften als Erkennungssignal

Struktur behalten, Namen entfernen

Praxisfall: Personalübergang bei einer Übernahme

Drei DSGVO-Art.-5-Regeln, ein Prozess

Quellen

Verwandte Artikel

Warum selbstgehostete PII-Tools Compliance-Audits...

Was Presidio vermisst: Die 220+ Entitätstypen...

Die Kosten der Compliance bei inkonsistenter...

Bereit, Ihre Daten zu schützen?

Excel und GDPR: So anonymisieren Sie...

Warum Excel Ihr riskantester Dateityp ist

Warum normale Textscans bei Tabellen versagen

Das SSN-als-Zahl-Problem

Das Datum-als-Zahl-Problem

Das Teilweise-SSN-Problem

Das Formel-PII-Problem

Das Mehrblatt-Problem

Spaltenüberschriften als Erkennungssignal

Struktur behalten, Namen entfernen

Praxisfall: Personalübergang bei einer Übernahme

Drei DSGVO-Art.-5-Regeln, ein Prozess

Quellen

Verwandte Artikel

Warum selbstgehostete PII-Tools Compliance-Audits...

Was Presidio vermisst: Die 220+ Entitätstypen...

Die Kosten der Compliance bei inkonsistenter...

Bereit, Ihre Daten zu schützen?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow