By · Last updated 2026-06-05

Zurück zum BlogDSGVO & Compliance

Excel und GDPR: So anonymisieren Sie...

Excel gehört zu den PII-dichtesten Dokumenttypen in Geschäftsabläufen. Hier ist der Grund, warum die Standardtextanalyse bei Tabellenkalkulationen...

June 5, 20268 min Lesezeit
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Warum Excel Ihr riskantester Dateityp ist

Excel-Dateien gehören in den meisten Unternehmen zu den größten DSGVO-Risiken. Medizinische Unterlagen enthalten pro Zeile oft sensiblere Daten. Aber Tabellen sammeln personenbezogene Daten still an — und Compliance-Teams übersehen sie oft.

Drei Dinge machen Excel-Dateien schwer handhabbar.

Volumen: Eine XLSX-Datei kann 50.000 Zeilen und 100 Spalten enthalten. Das sind fünf Millionen Zellen. Keine manuelle Prüfung kann alle kontrollieren.

Rasterstruktur: Text fließt in eine Richtung. Excel verteilt Daten über Zeilen und Spalten. Personenbezogene Daten können überall in diesem Raster versteckt sein.

Gemischte Inhalte: Gehaltsgruppen, Abteilungscodes und Jobbewertungen liegen in derselben Datei wie Sozialversicherungsnummern und E-Mail-Adressen. Alles zu löschen macht die Datei unbrauchbar.

Lange Aufbewahrung: Mitarbeiterlisten und Kundendatenbanken bleiben jahrelang in Excel-Dateien. DSGVO Art. 5(1)(e) fordert, Daten nur „so lange wie nötig" zu speichern. Dateien, die „nützlich sein könnten", bleiben oft weit über diesen Punkt hinaus erhalten.

Warum normale Textscans bei Tabellen versagen

Textanalyse-Tools wurden für Dokumente gebaut. Bei Tabellen versagen sie auf vorhersehbare Weisen.

Das SSN-als-Zahl-Problem

Excel speichert Sozialversicherungsnummern ohne Bindestriche (123456789) als normale Zahlen — nicht als Text. Ein Scanner, der nach dem Muster ###-##-#### sucht, findet sie nicht. Ein gutes Tool muss wissen, dass eine 9-stellige Zahl in einer Spalte namens „SSN" eine Sozialversicherungsnummer ist.

Das Datum-als-Zahl-Problem

Excel speichert Daten intern als Seriennummern. Der 6. Februar 2024 ist die Nummer 45329. Ein CSV-Export zeigt „45329" in einer Spalte „Geburtsdatum". Ein Scanner muss diese Zahl erst in ein Datum umrechnen, bevor er den Wert erkennen kann.

Das Teilweise-SSN-Problem

Einige Systeme zeigen nur die letzten vier Stellen einer SSN (***-**-1234). Die vollständige Nummer liegt in einer gesperrten Spalte. Der Teilwert muss dennoch anonymisiert werden — auch wenn er nicht wie eine vollständige SSN aussieht.

Das Formel-PII-Problem

Einige Zellen bauen personenbezogene Daten aus anderen Zellen zusammen. Eine Zelle mit =CONCATENATE(B2;" ";C2) zeigt einen vollständigen Namen. Wenn man Spalten B und C löscht, ist der Name in der Formelzelle noch sichtbar. Tools, die nur gespeicherte Werte lesen — keine Formelverknüpfungen — lassen personenbezogene Daten nach der Bereinigung stehen.

Das Mehrblatt-Problem

Eine große Arbeitsmappe hat vielleicht fünf Blätter: Kundenliste, Bestellungen, Support-Tickets, Abrechnung und Analyse. Kundennamen erscheinen auf allen fünf. „John Smith" auf einem Blatt muss auf jedem anderen Blatt denselben Token erhalten — „PERSON_0047" — nicht zwei verschiedene Token, die Datensatzverknüpfungen zerstören.

Spaltenüberschriften als Erkennungssignal

Die wichtigste Verbesserung bei der PII-Erkennung in Tabellen ist die Analyse der Spaltenüberschriften.

Eine Spalte mit dem Namen „SSN" sagt dem Tool, dass alle Werte in dieser Spalte Sozialversicherungsnummern sind. Das gilt auch dann, wenn Werte unvollständig, ungewöhnlich formatiert oder als Zahlen gespeichert sind.

SpaltenüberschriftSignal
SSN / Social Security / Steuer-ID9-stellige Zahlen als SSN behandeln
E-Mail / E-Mail-AdresseAuch teilweise E-Mail-Muster erkennen
Telefon / Mobil / HandyJedes Telefonformat akzeptieren
Geburtsdatum / DOB / BirthdaySeriennummern in Daten umrechnen
Vorname / Nachname / Vollständiger NameSchwelle für Namenserkennung senken
Adresse / Straße / Stadt / PLZGeografische Felder kombinieren
Patienten-ID / AufnahmenummerGesundheits-ID-Muster anwenden

Spaltenkontext ersetzt keine Inhaltsscans. Er ergänzt sie. Eine Spalte „SSN" mit 100 Werten: Inhaltsscans finden 99 korrekt formatierte. Spaltenkontext findet den einen ungewöhnlichen.

Struktur behalten, Namen entfernen

Das Ziel in den meisten Excel-DSGVO-Fällen ist nicht, die Datei zu zerstören. Es geht darum, personenbezogene Daten zu entfernen und dabei die Teile zu erhalten, die die Datei nützlich machen.

Für eine 15.000-Zeilen-Mitarbeiterdatei braucht ein Compliance-Officer:

Entfernen:

  • Mitarbeiternamen → PERSON_XXXX-Token
  • Sozialversicherungsnummern → REDACTED
  • E-Mail-Adressen → REDACTED
  • Telefonnummern → REDACTED
  • Privatadressen → REDACTED

Behalten:

  • Abteilungscodes
  • Berufsbezeichnungen (allgemeine Rollen)
  • Gehaltsgruppen (breite Kategorien)
  • Leistungspunkte (Gruppendaten)
  • Eintrittsdaten (für Betriebszugehörigkeitsstatistiken)
  • Managercodes (wenn pseudonymisiert)

Ein Tool, das zwischen „Daten, die Personen benennen" und „Daten, die Jobs beschreiben" unterscheidet, liefert eine Datei, die für HR-Analysen nutzbar bleibt — und DSGVO-Anforderungen zur Datensparsamkeit erfüllt.

Praxisfall: Personalübergang bei einer Übernahme

Ein übernehmdes Unternehmen erhält Mitarbeiterdaten des Zielunternehmens: eine XLSX-Datei mit 15.000 Zeilen und 40 Spalten. Die Datei muss an eine externe HR-Firma zur Leistungsplanung. Die DSGVO erlaubt nur die für diese Aufgabe notwendigen Daten.

Vor der Verarbeitung: 40 Spalten mit vollständigen Namen, SSNs, E-Mails, Privatadressen, Notfallkontakten und Bankdaten.

Nach der spaltenbasierten Verarbeitung:

  • 12 Spalten identifizieren Personen direkt (Namen, SSNs, E-Mails, Telefon, Adressen, Bankdaten): durch konsistente Token ersetzt
  • 3 Spalten identifizieren Personen indirekt (Mitarbeiter-ID, Managercode, Jobcode): durch pseudonyme Token ersetzt, die innerhalb der Datei einheitlich sind
  • 25 Spalten sind aggregierte Daten (Gehaltsgruppe, Abteilung, Dienstzeit, Stufe): unverändert gelassen

Zeit: 8 Minuten für 600.000 Zellen

Ausgabe: Gleiches XLSX-Layout, 40 Spalten, 15 anonymisiert, 25 unverändert

Prüfprotokoll: Zellengenauer Nachweis jeder Aktion mit Entitätstyp, Konfidenzwert und verwendetem Spaltensignal

Die HR-Firma erhält einen vollständigen Datensatz für ihre Arbeit — ohne Namen oder IDs. Die Compliance-Akte erhält den Nachweis, dass nur die richtigen Daten geteilt wurden.

Diese Herausforderung ist nicht auf Excel beschränkt. Jedes Dateiformat versagt auf seine eigene Weise. Siehe wie Formatfragmentierung die PII-Erkennung beeinflusst.

Drei DSGVO-Art.-5-Regeln, ein Prozess

Strukturierte Tabellenblatt-Anonymisierung erfüllt gleichzeitig drei Regeln.

Datensparsamkeit (Art. 5(1)(c)): Nur die für die Aufgabe nötigen Spalten gehen an den Empfänger. Identifizierende Spalten werden bereinigt.

Speicherbegrenzung (Art. 5(1)(e)): Die Originaldatei bleibt für gesetzliche Aufbewahrungsfristen. Eine saubere Kopie wird für die Weitergabe erstellt — mit kürzeren oder keinen Aufbewahrungsanforderungen.

Integrität und Vertraulichkeit (Art. 5(1)(f)): Keine identifizierenden Daten verlassen die Kontrollzone. Nur saubere Kopien werden geteilt.

Das Prüfprotokoll aus dem Prozess ist auch Ihr Art.-5(2)-Nachweis. Es zeigt, wie jede Regel für jede Datei eingehalten wurde.

Wenn Ihr Team mit DSARs oder großen Datenexporten arbeitet, gilt dieselbe Logik auf API-Ebene. Siehe wie DSGVO-Datensparsamkeit in Echtzeit-APIs funktioniert.

Für Teams mit hohem Volumen und engen Fristen, siehe DSGVO-DSAR-Stapelverarbeitung im großen Maßstab.

Quellen

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.