Die Lücke, die das Löschen von Spalten übersieht

Aktualisiert für 2026

Forschungsdatensätze wandern zwischen Universitäten als CSV-Dateien. Wenn Teams eine CSV für die Weitergabe vorbereiten, ist die Arbeit spaltenbasiert. Persönliche Daten finden. Löschen oder ersetzen.

Diese Methode funktioniert für feste Felder. Eine Spalte namens „email" enthält E-Mail-Adressen — löschen. Eine Spalte namens „phone" enthält Telefonnummern — löschen. Eine Spalte namens „participant_name" enthält Namen — durch einen Code ersetzen.

Doch Freitextantworten sind ein blinder Fleck. Das Entfernen beschrifteter Spalten berührt sie nicht.

Eine Umfrage mit 5.000 Zeilen könnte fünf strukturierte PII-Spalten und fünfzehn Freitextantwort-Spalten haben. Die strukturierten enthalten Namen, E-Mails, Telefonnummern, IDs und Geburtsjahre. Die Freitext-Spalten enthalten Kommentare, Notizen und Vorschläge.

Die strukturierten Spalten werden bereinigt. Die Freitext-Spalten bleiben roh. Aber Teilnehmer schreiben Dinge wie diese drei Beispiele.

Erstes: „Mein Arzt im Boston Medical Center, Dr. Maria Santos, sagte, die Behandlung sei neu." Zweites: „Ich habe damit seit meinem Unfall 2019 zu tun." Drittes: „Sie können meine Pflegeperson unter margaret.wells@gmail.com erreichen."

Jeder Eintrag nennt eine echte Person. Einige enthalten Gesundheitsinformationen oder Kontaktdaten. Nichts davon erscheint in einem Spaltenkopf. Nichts davon wird durch das Löschen von Spalten erfasst.

Warum Dies den DSGVO-Standard Verfehlt

DSGVO-Erwägungsgrund 26 definiert anonyme Aufzeichnungen als solche, die keiner Person zugeordnet werden können. Die Anforderungen sind hoch. Aufzeichnungen sind nur dann wirklich anonym, wenn eine Re-Identifizierung nicht vernünftigerweise möglich ist.

Eine CSV mit bereinigten strukturierten Spalten, aber benannten Personen im Freitext, besteht diesen Test nicht. Diese Namen sind identifizierbar. Der Datensatz ist noch immer personenbezogen. Die Schutzanforderungen aus DSGVO-Artikel 89 gelten weiterhin. So entstehen drei Risiken.

Ausnahme für wissenschaftliche Forschung (Art. 89): Artikel 89 erlaubt Forschern die Verarbeitung personenbezogener Daten für die Wissenschaft mit weniger Pflichten. Aber nur dort, wo „geeignete Garantien" bestehen. Das Teilen einer Datei mit noch vorhandenen Freitext-PII unter Berufung auf Artikel 89 ist ein rechtlicher Fehler.

Ethikvotum: Die meisten Ethikkommissionen und IRBs verlangen eine echte Anonymisierung für geteilte Datensätze. Teilweise Arbeit — strukturierte Spalten bereinigt, Freitext roh belassen — besteht den Test in der Regel nicht. Die Kommission kann den Antrag ablehnen.

Datenweitergabevereinbarungen: DSAs zwischen Institutionen legen den erforderlichen Anonymisierungsstandard fest. Teilweise Arbeit, die DSGVO-Erwägungsgrund 26 nicht erfüllt, kann die DSA verletzen. Unsere Übersicht zur Rechtskonformität zeigt, wie dies in ein umfassenderes Programm passt.

Warum Freitext so Schwer zu Bereinigen Ist

Freitextantworten sind unter den schwierigsten PII-Zielen. Hier ist der Grund.

Namen im Kontext: „Dr. Maria Santos im Boston Medical Center" erfordert Named Entity Recognition (NER), um eine Person und eine Organisation zu kennzeichnen. Schlüsselwortlisten können das nicht finden.

Namen in Geschichten: „Johns Auto hat meins getroffen" setzt einen echten Namen in eine Erzählung. Es ist eine Person, die beiläufig erwähnt wird. Nur NER erkennt das.

Nicht standardisierte Formate: Kontaktdaten können lauten: „Erreichen Sie mich unter margaret punkt wells at gmail." Einfache Regex-Tools verpassen das.

Forschungsspezifische Entitäten: Klinische Umfragen enthalten oft Krankenhaus-IDs, Standortcodes und Ortsnamen. Diese können eine Person identifizieren, auch wenn sie generisch erscheinen.

Pattern Matching allein reicht nicht aus. NLP-basierte Tools sind für eine echte Umfrageanonymisierung erforderlich. Technische Optionen finden Sie unter Sicherheit & Compliance.

Ein Echtes Beispiel aus Drei Universitäten

Ein Forschungsteam an drei europäischen Universitäten führte eine Umfrage zu Patientenerfahrungen durch. Der Datensatz hatte 5.000 Teilnehmer, 3 strukturierte PII-Spalten und 8 Freitextantwort-Spalten. Das Ziel war die institutsübergreifende Weitergabe unter einer DSA und DSGVO-Artikel 89.

Nur mit Spaltenlöschung:

Strukturierte PII-Spalten: entfernt
Freitextantworten: roh belassen
Behauptung: „PII-Spalten gelöscht"
Zurückgelassene PII: 47 benannte Personen, 23 E-Mail-Adressen in Kommentaren, 18 Ortsangaben, die Teilnehmer identifizieren könnten

Mit NLP-basierter Erkennung:

Strukturierte PII-Spalten: mit konsistenten Tokens pseudonymisiert
Freitextantworten: 47 Namen ersetzt, 23 E-Mails maskiert, 18 Ortsangaben verallgemeinert („Boston Medical Center" → „[Gesundheitseinrichtung]")
Ergebnis: ein Datensatz, der DSGVO-Erwägungsgrund 26 erfüllt
Ethikkommission billigte die Methode
DSB bestätigte DSA-Konformität

Die Lücke ist real. Das erste Ergebnis sieht sauber aus. Das zweite Ergebnis ist sauber.

Ein Fünfschrittiges Protokoll vor der Weitergabe

Verwenden Sie diese Schritte, bevor Sie einen Umfrage- oder Interviewdatensatz teilen.

Schritt 1: Spalten beschriften Jede Spalte als strukturierte PII, strukturierte Nicht-PII oder Freitextantwort kennzeichnen. Aufschreiben.

Schritt 2: Strukturierte PII behandeln Nicht benötigte Einträge löschen. Für die Verknüpfung benötigte Einträge pseudonymisieren. Verwendete Codes dokumentieren.

Schritt 3: Freitextspalten scannen NLP-Erkennung auf alle Freitext-Spalten anwenden. Jede erkannte Entität prüfen. Bestätigen, welche echte PII sind.

Schritt 4: Ersetzungen vornehmen Bestätigte PII in der Freitextausgabe ersetzen. Klare Labels wie [PERSON], [EMAIL] oder [STANDORT] verwenden.

Schritt 5: Überprüfen und dokumentieren 50–100 Zeilen aus der Ausgabe stichprobenartig prüfen. Freitexteinträge manuell kontrollieren. Kurze Zusammenfassung schreiben: verwendete Tools, gefundene Entitätstypen, verarbeitete Spalten. Mit dem Datensatz für die Ethikprüfung teilen.

Das verwandelt „wir haben die Namensspalte gelöscht" in einen klaren, dokumentierten Prozess. Er erfüllt DSGVO-Artikel 89 und die Anonymisierungsstandards der meisten Ethikkommissionen. Weitere Leitfäden finden Sie in unserem Docs-Hub.

Quellen

DSGVO Artikel 89: Garantien für die wissenschaftliche Forschung — VERIFIED-EXTERNAL
DSGVO Erwägungsgrund 26: Anonymisierungsgrundsatz — VERIFIED-EXTERNAL
ICO: Anonymisierung und Datenschutzrisiko — VERIFIED-EXTERNAL

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.

Kostenlose Testversion starten Funktionen anzeigen

Warum 'Löschen der E-Mail-Spalte' nicht ausreicht...

Die Lücke, die das Löschen von Spalten übersieht

Warum Dies den DSGVO-Standard Verfehlt

Warum Freitext so Schwer zu Bereinigen Ist

Ein Echtes Beispiel aus Drei Universitäten

Ein Fünfschrittiges Protokoll vor der Weitergabe

Quellen

Verwandte Artikel

Warum selbstgehostete PII-Tools Compliance-Audits...

Was Presidio vermisst: Die 220+ Entitätstypen...

Die Kosten der Compliance bei inkonsistenter...

Bereit, Ihre Daten zu schützen?

Warum 'Löschen der E-Mail-Spalte' nicht ausreicht...

Die Lücke, die das Löschen von Spalten übersieht

Warum Dies den DSGVO-Standard Verfehlt

Warum Freitext so Schwer zu Bereinigen Ist

Ein Echtes Beispiel aus Drei Universitäten

Ein Fünfschrittiges Protokoll vor der Weitergabe

Quellen

Verwandte Artikel

Warum selbstgehostete PII-Tools Compliance-Audits...

Was Presidio vermisst: Die 220+ Entitätstypen...

Die Kosten der Compliance bei inkonsistenter...

Bereit, Ihre Daten zu schützen?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow