Das Problem der strukturierten vs. Freitext-PII
Forschungsdaten, die zwischen akademischen Institutionen ausgetauscht werden, werden am häufigsten im CSV-Format übertragen. Wenn Forscher CSV-Dateien für den Austausch vorbereiten, basiert die Standardanonymisierungscheckliste auf Spalten: Identifizieren Sie Spalten, die personenbezogene Daten enthalten, löschen oder pseudonymisieren Sie diese Spalten.
Dieser Ansatz behandelt strukturierte PII zuverlässig. Eine Spalte mit dem Namen "E-Mail" enthält E-Mail-Adressen – löschen Sie sie. Eine Spalte mit dem Namen "Telefon" enthält Telefonnummern – löschen Sie sie. Eine Spalte mit dem Namen "Teilnehmer_name" enthält Namen – pseudonymisieren Sie sie.
Was der Ansatz zum Löschen von Spalten übersieht: PII, die in Freitextantwortspalten eingebettet ist.
Ein Umfragedatensatz mit 5.000 Zeilen und 20 Spalten könnte Folgendes enthalten:
- 5 strukturierte PII-Spalten (Name, E-Mail, Telefon, ID, Geburtsjahr)
- 15 Freitextantwortspalten ("zusätzliche_Kommentare", "Erfahrung_beschreiben", "was_würde_verbessern", "andere_Details")
Die strukturierten Spalten werden durch das Löschen von Spalten bereinigt. Die Freitextspalten bleiben unverändert. Aber Umfrageteilnehmer schreiben Dinge wie:
- "Mein Arzt im Boston Medical Center, Dr. Maria Santos, sagte, die Behandlung sei experimentell"
- "Ich habe damit seit meinem Unfall im Jahr 2019 zu kämpfen, als das Auto von John Henderson mein Auto rammte"
- "Sie können meinen Betreuer unter margaret.wells@gmail.com erreichen, wenn Sie weitere Informationen benötigen"
Diese Einträge enthalten namentlich genannte Personen, institutionelle Zugehörigkeiten, Gesundheitsinformationen und Kontaktdaten – nichts davon erscheint in den Spaltenüberschriften, und nichts davon wird durch die Anonymisierung durch Löschen von Spalten erfasst.
Warum dies den Anonymisierungsstandard der DSGVO nicht erfüllt
Die DSGVO-Erwägungsgrundlage 26 definiert anonyme Daten als Informationen, die "nicht mit einer identifizierten oder identifizierbaren natürlichen Person in Verbindung stehen." Der Standard für Anonymisierung ist hoch: Daten sind nur anonym, wenn es "unmöglich" (in vernünftiger Schätzung) ist, die betroffene Person zu identifizieren.
Eine teilweise anonymisierte Forschungs-CSV – strukturierte Spalten bereinigt, Freitextspalten mit namentlich genannten Personen – erfüllt diesen Standard nicht. Die namentlich genannten Personen in den Freitextantworten sind identifizierbar, und der Datensatz bleibt daher personenbezogene Daten, die den Anforderungen des Artikels 89 der DSGVO unterliegen.
Das ist in mehreren Forschungskontexten wichtig:
Forschungsausnahme nach Artikel 89: Artikel 89 der DSGVO erlaubt die Verarbeitung personenbezogener Daten zu wissenschaftlichen Forschungszwecken mit reduzierten Verpflichtungen, jedoch nur, wenn "angemessene Schutzmaßnahmen" vorhanden sind. Das Teilen eines Datensatzes, der teilweise anonymisiert ist (aber weiterhin PII in Freitext enthält), während behauptet wird, dass er die Anforderungen des Artikels 89 erfüllt, ist ein Compliance-Fehler.
Genehmigung durch die Ethikkommission der Forschung: Die meisten akademischen IRBs und Ethikprüfungskommissionen verlangen, dass geteilte Datensätze tatsächlich anonymisiert sind. Teilweise Anonymisierung, die Freitext-PII intakt lässt, erfüllt typischerweise nicht die Genehmigungsbedingungen der Ethik.
Datenfreigabevereinbarungen zwischen Institutionen: DSAs für Forschungsdaten spezifizieren typischerweise, dass die geteilten Daten auf einen definierten Standard anonymisiert werden müssen. Teilweise Anonymisierung, die den Erwägungsgrund 26 der DSGVO nicht erfüllt, kann gegen die DSA verstoßen.
Die technische Herausforderung der Erkennung von Freitext-PII
Freitextantworten in Umfragen gehören zu den herausforderndsten Zielen der PII-Erkennung, weil:
Kontextuelle Benennung: "Dr. Maria Santos im Boston Medical Center" erfordert NER, um "Maria Santos" als Person und "Boston Medical Center" als Organisation zu erkennen – nicht als Schlüsselwortübereinstimmung. Die Muster sind nicht vorhersehbar.
Zufällige Identifizierung: "Das Auto von John Henderson hat meines gerammt" erfordert NER, um "John Henderson" als namentlich genannte Person in einem narrativen Kontext zu identifizieren – nicht als Datenfeld, sondern als Person, die in einer Geschichte erwähnt wird.
Kontaktinformationen in unerwarteten Formaten: E-Mail-Adressen und Telefonnummern, die in Freitext erscheinen, können ein nicht standardmäßiges Format haben ("erreichen Sie mich unter margaret Punkt wells at gmail"), das nur durch Regex-Erkennung übersehen wird.
Forschungsspezifische Entitätstypen: Akademische und klinische Forschungsdaten enthalten oft institutionelle Identifikatoren (Krankenhaus-IDs, Forschungsstandortcodes), klinische Terminologie und Standortreferenzen, die im Kontext PII sind, auch wenn sie nicht offensichtlich sind.
Deshalb ist die auf NLP basierende Erkennung – anstelle von nur Mustererkennung – notwendig für eine echte Anonymisierung von Freitextumfragen.
Anwendungsfall: Forschungs-Konsortium mit mehreren Institutionen
Ein Forschungs-Konsortium an drei europäischen Universitäten führte eine Umfrage zur Patientenerfahrung durch: 5.000 Befragte, 3 strukturierte PII-Spalten und 8 Freitextantwortspalten. Die Daten sollten zwischen den Institutionen für eine gemeinsame Analyse im Rahmen einer Datenfreigabevereinbarung und der Ausnahme gemäß Artikel 89 der DSGVO geteilt werden.
Standardansatz (nur Löschen von Spalten):
- 3 strukturierte PII-Spalten entfernt
- 8 Freitextspalten unverändert behalten
- Compliance-Behauptung: "PII-Spalten gelöscht"
- Tatsächlich verbleibende PII: 47 namentlich genannte Personen in Freitextantworten, 23 E-Mail-Adressen, die in Kommentaren freiwillig angegeben wurden, 18 Standortreferenzen, die Befragte im Kontext identifizieren könnten
Mit Freitext-NLP-Erkennung:
- 3 strukturierte PII-Spalten pseudonymisiert (konsistente Tokens, nicht gelöscht – Bewahrung der Integrität der Zeilenanzahl)
- 8 Freitextspalten verarbeitet: 47 Personennamen erkannt und ersetzt, 23 E-Mail-Adressen erkannt und maskiert, 18 Standortreferenzen erkannt und verallgemeinert ("Boston Medical Center" → "[Gesundheitseinrichtung]")
- Ausgabe: tatsächlich anonymisierter Datensatz, der den Standard der DSGVO-Erwägungsgrundlage 26 erfüllt
- Genehmigung der Anonymisierungsmethodik durch das Ethikkomitee der Forschung
- DSA-Compliance durch DPO-Überprüfung bestätigt
Der Unterschied: Der zweite Ansatz produziert einen Datensatz, der tatsächlich den Anonymisierungsstandard erfüllt. Der erste Ansatz produziert einen Datensatz, der anonymisiert erscheint, aber identifizierbare Informationen in den nicht überprüften Spalten enthält.
Aufbau eines Protokolls zur Anonymisierung von Forschungsdaten
Für Forschungsteams, die mit Umfrage- und Interviewdaten arbeiten, ein strukturiertes Protokoll vor dem Austausch:
Schritt 1: Spaltenklassifizierung
- Kategorisieren Sie alle Spalten: strukturierte PII, strukturierte Nicht-PII, Freitextantwort
- Dokumentieren Sie die Klassifizierung
Schritt 2: Umgang mit strukturierten PII
- Löschen (wenn nicht für die Forschung benötigt) oder pseudonymisieren (wenn für die Verknüpfung von Datensätzen benötigt)
- Dokumentieren Sie die verwendeten Ersetzungstokens
Schritt 3: Analyse des Freitextinhalts
- Führen Sie NLP-Erkennung auf allen Freitextspalten durch
- Überprüfen Sie die erkannten Entitäten: Bestätigen Sie, welche echte PII darstellen
- Wenden Sie Ersetzungen für bestätigte PII-Entitäten an
Schritt 4: Verifizierung
- Ziehen Sie 50-100 Zeilen aus dem Ausgabedatensatz
- Manuelle Überprüfung aller Freitexteinträge, die erkannte Entitäten enthalten
- Bestätigen Sie, dass die Erkennungsrate für den Spaltentyp angemessen ist
Schritt 5: Dokumentation
- Dokument zur Anonymisierungsmethodik: verwendete Werkzeuge, erkannte Entitätstypen, verarbeitete Spalten
- Teilen Sie das Dokument zur Methodik zusammen mit dem anonymisierten Datensatz zur Ethiküberprüfung
Dieses Protokoll verwandelt "wir haben die Namensspalte gelöscht" in einen verteidigbaren, dokumentierten Anonymisierungsprozess, der die Anforderungen des Artikels 89 der DSGVO und der institutionellen Forschungsstandards erfüllt.
Quellen: