Die Lücke, die das Löschen von Spalten übersieht
Aktualisiert für 2026
Forschungsdatensätze wandern zwischen Universitäten als CSV-Dateien. Wenn Teams eine CSV für die Weitergabe vorbereiten, ist die Arbeit spaltenbasiert. Persönliche Daten finden. Löschen oder ersetzen.
Diese Methode funktioniert für feste Felder. Eine Spalte namens „email" enthält E-Mail-Adressen — löschen. Eine Spalte namens „phone" enthält Telefonnummern — löschen. Eine Spalte namens „participant_name" enthält Namen — durch einen Code ersetzen.
Doch Freitextantworten sind ein blinder Fleck. Das Entfernen beschrifteter Spalten berührt sie nicht.
Eine Umfrage mit 5.000 Zeilen könnte fünf strukturierte PII-Spalten und fünfzehn Freitextantwort-Spalten haben. Die strukturierten enthalten Namen, E-Mails, Telefonnummern, IDs und Geburtsjahre. Die Freitext-Spalten enthalten Kommentare, Notizen und Vorschläge.
Die strukturierten Spalten werden bereinigt. Die Freitext-Spalten bleiben roh. Aber Teilnehmer schreiben Dinge wie diese drei Beispiele.
Erstes: „Mein Arzt im Boston Medical Center, Dr. Maria Santos, sagte, die Behandlung sei neu." Zweites: „Ich habe damit seit meinem Unfall 2019 zu tun." Drittes: „Sie können meine Pflegeperson unter margaret.wells@gmail.com erreichen."
Jeder Eintrag nennt eine echte Person. Einige enthalten Gesundheitsinformationen oder Kontaktdaten. Nichts davon erscheint in einem Spaltenkopf. Nichts davon wird durch das Löschen von Spalten erfasst.
Warum Dies den DSGVO-Standard Verfehlt
DSGVO-Erwägungsgrund 26 definiert anonyme Aufzeichnungen als solche, die keiner Person zugeordnet werden können. Die Anforderungen sind hoch. Aufzeichnungen sind nur dann wirklich anonym, wenn eine Re-Identifizierung nicht vernünftigerweise möglich ist.
Eine CSV mit bereinigten strukturierten Spalten, aber benannten Personen im Freitext, besteht diesen Test nicht. Diese Namen sind identifizierbar. Der Datensatz ist noch immer personenbezogen. Die Schutzanforderungen aus DSGVO-Artikel 89 gelten weiterhin. So entstehen drei Risiken.
Ausnahme für wissenschaftliche Forschung (Art. 89): Artikel 89 erlaubt Forschern die Verarbeitung personenbezogener Daten für die Wissenschaft mit weniger Pflichten. Aber nur dort, wo „geeignete Garantien" bestehen. Das Teilen einer Datei mit noch vorhandenen Freitext-PII unter Berufung auf Artikel 89 ist ein rechtlicher Fehler.
Ethikvotum: Die meisten Ethikkommissionen und IRBs verlangen eine echte Anonymisierung für geteilte Datensätze. Teilweise Arbeit — strukturierte Spalten bereinigt, Freitext roh belassen — besteht den Test in der Regel nicht. Die Kommission kann den Antrag ablehnen.
Datenweitergabevereinbarungen: DSAs zwischen Institutionen legen den erforderlichen Anonymisierungsstandard fest. Teilweise Arbeit, die DSGVO-Erwägungsgrund 26 nicht erfüllt, kann die DSA verletzen. Unsere Übersicht zur Rechtskonformität zeigt, wie dies in ein umfassenderes Programm passt.
Warum Freitext so Schwer zu Bereinigen Ist
Freitextantworten sind unter den schwierigsten PII-Zielen. Hier ist der Grund.
Namen im Kontext: „Dr. Maria Santos im Boston Medical Center" erfordert Named Entity Recognition (NER), um eine Person und eine Organisation zu kennzeichnen. Schlüsselwortlisten können das nicht finden.
Namen in Geschichten: „Johns Auto hat meins getroffen" setzt einen echten Namen in eine Erzählung. Es ist eine Person, die beiläufig erwähnt wird. Nur NER erkennt das.
Nicht standardisierte Formate: Kontaktdaten können lauten: „Erreichen Sie mich unter margaret punkt wells at gmail." Einfache Regex-Tools verpassen das.
Forschungsspezifische Entitäten: Klinische Umfragen enthalten oft Krankenhaus-IDs, Standortcodes und Ortsnamen. Diese können eine Person identifizieren, auch wenn sie generisch erscheinen.
Pattern Matching allein reicht nicht aus. NLP-basierte Tools sind für eine echte Umfrageanonymisierung erforderlich. Technische Optionen finden Sie unter Sicherheit & Compliance.
Ein Echtes Beispiel aus Drei Universitäten
Ein Forschungsteam an drei europäischen Universitäten führte eine Umfrage zu Patientenerfahrungen durch. Der Datensatz hatte 5.000 Teilnehmer, 3 strukturierte PII-Spalten und 8 Freitextantwort-Spalten. Das Ziel war die institutsübergreifende Weitergabe unter einer DSA und DSGVO-Artikel 89.
Nur mit Spaltenlöschung:
- Strukturierte PII-Spalten: entfernt
- Freitextantworten: roh belassen
- Behauptung: „PII-Spalten gelöscht"
- Zurückgelassene PII: 47 benannte Personen, 23 E-Mail-Adressen in Kommentaren, 18 Ortsangaben, die Teilnehmer identifizieren könnten
Mit NLP-basierter Erkennung:
- Strukturierte PII-Spalten: mit konsistenten Tokens pseudonymisiert
- Freitextantworten: 47 Namen ersetzt, 23 E-Mails maskiert, 18 Ortsangaben verallgemeinert („Boston Medical Center" → „[Gesundheitseinrichtung]")
- Ergebnis: ein Datensatz, der DSGVO-Erwägungsgrund 26 erfüllt
- Ethikkommission billigte die Methode
- DSB bestätigte DSA-Konformität
Die Lücke ist real. Das erste Ergebnis sieht sauber aus. Das zweite Ergebnis ist sauber.
Ein Fünfschrittiges Protokoll vor der Weitergabe
Verwenden Sie diese Schritte, bevor Sie einen Umfrage- oder Interviewdatensatz teilen.
Schritt 1: Spalten beschriften Jede Spalte als strukturierte PII, strukturierte Nicht-PII oder Freitextantwort kennzeichnen. Aufschreiben.
Schritt 2: Strukturierte PII behandeln Nicht benötigte Einträge löschen. Für die Verknüpfung benötigte Einträge pseudonymisieren. Verwendete Codes dokumentieren.
Schritt 3: Freitextspalten scannen NLP-Erkennung auf alle Freitext-Spalten anwenden. Jede erkannte Entität prüfen. Bestätigen, welche echte PII sind.
Schritt 4: Ersetzungen vornehmen
Bestätigte PII in der Freitextausgabe ersetzen. Klare Labels wie [PERSON], [EMAIL] oder [STANDORT] verwenden.
Schritt 5: Überprüfen und dokumentieren 50–100 Zeilen aus der Ausgabe stichprobenartig prüfen. Freitexteinträge manuell kontrollieren. Kurze Zusammenfassung schreiben: verwendete Tools, gefundene Entitätstypen, verarbeitete Spalten. Mit dem Datensatz für die Ethikprüfung teilen.
Das verwandelt „wir haben die Namensspalte gelöscht" in einen klaren, dokumentierten Prozess. Er erfüllt DSGVO-Artikel 89 und die Anonymisierungsstandards der meisten Ethikkommissionen. Weitere Leitfäden finden Sie in unserem Docs-Hub.
Quellen
- DSGVO Artikel 89: Garantien für die wissenschaftliche Forschung — VERIFIED-EXTERNAL
- DSGVO Erwägungsgrund 26: Anonymisierungsgrundsatz — VERIFIED-EXTERNAL
- ICO: Anonymisierung und Datenschutzrisiko — VERIFIED-EXTERNAL