By · Last updated 2026-06-05

Zurück zum BlogDSGVO & Compliance

Warum 'Löschen der E-Mail-Spalte' nicht ausreicht...

Umfrage-CSV-Dateien enthalten PII nicht nur in strukturierten Spalten, sondern auch in Freitextantworten.

June 5, 20267 min Lesezeit
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Die Lücke, die das Löschen von Spalten übersieht

Aktualisiert für 2026

Forschungsdatensätze wandern zwischen Universitäten als CSV-Dateien. Wenn Teams eine CSV für die Weitergabe vorbereiten, ist die Arbeit spaltenbasiert. Persönliche Daten finden. Löschen oder ersetzen.

Diese Methode funktioniert für feste Felder. Eine Spalte namens „email" enthält E-Mail-Adressen — löschen. Eine Spalte namens „phone" enthält Telefonnummern — löschen. Eine Spalte namens „participant_name" enthält Namen — durch einen Code ersetzen.

Doch Freitextantworten sind ein blinder Fleck. Das Entfernen beschrifteter Spalten berührt sie nicht.

Eine Umfrage mit 5.000 Zeilen könnte fünf strukturierte PII-Spalten und fünfzehn Freitextantwort-Spalten haben. Die strukturierten enthalten Namen, E-Mails, Telefonnummern, IDs und Geburtsjahre. Die Freitext-Spalten enthalten Kommentare, Notizen und Vorschläge.

Die strukturierten Spalten werden bereinigt. Die Freitext-Spalten bleiben roh. Aber Teilnehmer schreiben Dinge wie diese drei Beispiele.

Erstes: „Mein Arzt im Boston Medical Center, Dr. Maria Santos, sagte, die Behandlung sei neu." Zweites: „Ich habe damit seit meinem Unfall 2019 zu tun." Drittes: „Sie können meine Pflegeperson unter margaret.wells@gmail.com erreichen."

Jeder Eintrag nennt eine echte Person. Einige enthalten Gesundheitsinformationen oder Kontaktdaten. Nichts davon erscheint in einem Spaltenkopf. Nichts davon wird durch das Löschen von Spalten erfasst.

Warum Dies den DSGVO-Standard Verfehlt

DSGVO-Erwägungsgrund 26 definiert anonyme Aufzeichnungen als solche, die keiner Person zugeordnet werden können. Die Anforderungen sind hoch. Aufzeichnungen sind nur dann wirklich anonym, wenn eine Re-Identifizierung nicht vernünftigerweise möglich ist.

Eine CSV mit bereinigten strukturierten Spalten, aber benannten Personen im Freitext, besteht diesen Test nicht. Diese Namen sind identifizierbar. Der Datensatz ist noch immer personenbezogen. Die Schutzanforderungen aus DSGVO-Artikel 89 gelten weiterhin. So entstehen drei Risiken.

Ausnahme für wissenschaftliche Forschung (Art. 89): Artikel 89 erlaubt Forschern die Verarbeitung personenbezogener Daten für die Wissenschaft mit weniger Pflichten. Aber nur dort, wo „geeignete Garantien" bestehen. Das Teilen einer Datei mit noch vorhandenen Freitext-PII unter Berufung auf Artikel 89 ist ein rechtlicher Fehler.

Ethikvotum: Die meisten Ethikkommissionen und IRBs verlangen eine echte Anonymisierung für geteilte Datensätze. Teilweise Arbeit — strukturierte Spalten bereinigt, Freitext roh belassen — besteht den Test in der Regel nicht. Die Kommission kann den Antrag ablehnen.

Datenweitergabevereinbarungen: DSAs zwischen Institutionen legen den erforderlichen Anonymisierungsstandard fest. Teilweise Arbeit, die DSGVO-Erwägungsgrund 26 nicht erfüllt, kann die DSA verletzen. Unsere Übersicht zur Rechtskonformität zeigt, wie dies in ein umfassenderes Programm passt.

Warum Freitext so Schwer zu Bereinigen Ist

Freitextantworten sind unter den schwierigsten PII-Zielen. Hier ist der Grund.

Namen im Kontext: „Dr. Maria Santos im Boston Medical Center" erfordert Named Entity Recognition (NER), um eine Person und eine Organisation zu kennzeichnen. Schlüsselwortlisten können das nicht finden.

Namen in Geschichten: „Johns Auto hat meins getroffen" setzt einen echten Namen in eine Erzählung. Es ist eine Person, die beiläufig erwähnt wird. Nur NER erkennt das.

Nicht standardisierte Formate: Kontaktdaten können lauten: „Erreichen Sie mich unter margaret punkt wells at gmail." Einfache Regex-Tools verpassen das.

Forschungsspezifische Entitäten: Klinische Umfragen enthalten oft Krankenhaus-IDs, Standortcodes und Ortsnamen. Diese können eine Person identifizieren, auch wenn sie generisch erscheinen.

Pattern Matching allein reicht nicht aus. NLP-basierte Tools sind für eine echte Umfrageanonymisierung erforderlich. Technische Optionen finden Sie unter Sicherheit & Compliance.

Ein Echtes Beispiel aus Drei Universitäten

Ein Forschungsteam an drei europäischen Universitäten führte eine Umfrage zu Patientenerfahrungen durch. Der Datensatz hatte 5.000 Teilnehmer, 3 strukturierte PII-Spalten und 8 Freitextantwort-Spalten. Das Ziel war die institutsübergreifende Weitergabe unter einer DSA und DSGVO-Artikel 89.

Nur mit Spaltenlöschung:

  • Strukturierte PII-Spalten: entfernt
  • Freitextantworten: roh belassen
  • Behauptung: „PII-Spalten gelöscht"
  • Zurückgelassene PII: 47 benannte Personen, 23 E-Mail-Adressen in Kommentaren, 18 Ortsangaben, die Teilnehmer identifizieren könnten

Mit NLP-basierter Erkennung:

  • Strukturierte PII-Spalten: mit konsistenten Tokens pseudonymisiert
  • Freitextantworten: 47 Namen ersetzt, 23 E-Mails maskiert, 18 Ortsangaben verallgemeinert („Boston Medical Center" → „[Gesundheitseinrichtung]")
  • Ergebnis: ein Datensatz, der DSGVO-Erwägungsgrund 26 erfüllt
  • Ethikkommission billigte die Methode
  • DSB bestätigte DSA-Konformität

Die Lücke ist real. Das erste Ergebnis sieht sauber aus. Das zweite Ergebnis ist sauber.

Ein Fünfschrittiges Protokoll vor der Weitergabe

Verwenden Sie diese Schritte, bevor Sie einen Umfrage- oder Interviewdatensatz teilen.

Schritt 1: Spalten beschriften Jede Spalte als strukturierte PII, strukturierte Nicht-PII oder Freitextantwort kennzeichnen. Aufschreiben.

Schritt 2: Strukturierte PII behandeln Nicht benötigte Einträge löschen. Für die Verknüpfung benötigte Einträge pseudonymisieren. Verwendete Codes dokumentieren.

Schritt 3: Freitextspalten scannen NLP-Erkennung auf alle Freitext-Spalten anwenden. Jede erkannte Entität prüfen. Bestätigen, welche echte PII sind.

Schritt 4: Ersetzungen vornehmen Bestätigte PII in der Freitextausgabe ersetzen. Klare Labels wie [PERSON], [EMAIL] oder [STANDORT] verwenden.

Schritt 5: Überprüfen und dokumentieren 50–100 Zeilen aus der Ausgabe stichprobenartig prüfen. Freitexteinträge manuell kontrollieren. Kurze Zusammenfassung schreiben: verwendete Tools, gefundene Entitätstypen, verarbeitete Spalten. Mit dem Datensatz für die Ethikprüfung teilen.

Das verwandelt „wir haben die Namensspalte gelöscht" in einen klaren, dokumentierten Prozess. Er erfüllt DSGVO-Artikel 89 und die Anonymisierungsstandards der meisten Ethikkommissionen. Weitere Leitfäden finden Sie in unserem Docs-Hub.

Quellen

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.