Zurück zum BlogDSGVO & Compliance

Forschungsveröffentlichung PII: Warum Ihre Datenanalyse-Screenshots möglicherweise gegen die DSGVO verstoßen, ohne dass Sie es wissen

Wissenschaftliche Arbeiten enthalten regelmäßig pandas DataFrames und R-Ausgaben, die echte Patientenakten als Methodologiebeispiele zeigen. Hier ist der Grund, warum dies ein Verstoß gegen die DSGVO ist und wie man Manuskripte vor der Einreichung überprüft.

March 7, 20267 min Lesezeit
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Das Problem mit Methodologie-Screenshots

Akademische und Forschungsveröffentlichungen haben ein Dokumentationsmuster entwickelt, das ein unterschätztes DSGVO-Risiko schafft: Screenshots von Datenanalyseumgebungen, die echte Daten zeigen, um die Methodologie zu demonstrieren.

Die Szenarien sind häufig:

  • Ein Machine-Learning-Papier enthält einen Screenshot eines pandas DataFrame, der die ersten 10 Zeilen des Trainingsdatensatzes zeigt – der echte Patientenakten aus der Datenquelle enthält
  • Ein Papier zur klinischen Datenanalyse zeigt R-Ausgaben mit individuellen Patientenwerten in einer Zusammenfassungstabelle, wobei die Patienten-IDs teilweise sichtbar sind
  • Ein Papier zur computergestützten Sozialwissenschaft enthält SPSS-Ausgabetabellen, die individuelle Werte von Umfrageteilnehmern als Teil der Erläuterung des Analyseverfahrens zeigen
  • Ein Tutorial zur Datenverarbeitung, das in einer Forschungszeitschrift veröffentlicht wurde, enthält Jupyter-Notebook-Screenshots mit echten Benutzerdaten, die als "Beispieldaten" für die Veranschaulichung verwendet werden

In jedem Fall hatte der Autor nicht die Absicht, persönliche Daten zu veröffentlichen. Der Screenshot wurde zur Dokumentation der Methodologie aufgenommen. Die persönlichen Daten im Screenshot waren zufällig – sie waren da, um das Beispiel konkret zu machen.

Aber "zufällig" macht es nicht konform. Artikel 4(1) der DSGVO definiert persönliche Daten als alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Eine Patientenakte in einem veröffentlichten Papier – selbst als Screenshot – ist persönliche Daten. Die Veröffentlichung ohne die Zustimmung des Patienten oder eine andere rechtmäßige Grundlage gemäß Artikel 6 ist ein Verstoß gegen die DSGVO.

Warum dies ein konkretes rechtliches Risiko schafft

Forschungseinrichtungen sehen sich zunehmend mit der Durchsetzung der DSGVO aufgrund von Datenveröffentlichungsfehlern konfrontiert. Wichtige Entwicklungen:

Anträge auf Rücknahme von Zeitschriften: Das DSGVO-Recht auf Löschung (Artikel 17) erstreckt sich auf veröffentlichte Daten. Wenn eine betroffene Person ihre persönlichen Daten in einem veröffentlichten Papier entdeckt, kann sie die Löschung beantragen – was für einen Zeitschriftenartikel typischerweise eine Rücknahme oder Korrekturmitteilung bedeutet. Die Rücknahme einer Zeitschrift ist eine erhebliche berufliche Konsequenz.

Feststellungen von Ethikkommissionen: Ethikkommissionen, die veröffentlichte Forschung auf die Einhaltung der DSGVO überprüfen, haben begonnen, Feststellungen für Papiere zu erlassen, die individuelle Daten in Screenshots ohne angemessene Schutzmaßnahmen enthalten. Diese Feststellungen beeinflussen den Status von Forschern bei Ethikkommissionen für zukünftige Forschung.

Verstöße gegen Datenzugriffsvereinbarungen: Die meisten Forschungsdatensätze werden unter Datenzugriffsvereinbarungen geteilt, die festlegen, wie Daten verwendet werden dürfen und was veröffentlicht werden darf. Die Einbeziehung individueller Daten in Veröffentlichungsscreenshots, selbst als Thumbnails, kann gegen die DAA verstoßen – mit Konsequenzen, die den Verlust von Datenzugriffsrechten umfassen.

Einschränkungen der Forschungsbefreiung gemäß DSGVO Artikel 89: Artikel 89 der DSGVO erlaubt die Verarbeitung personenbezogener Daten für wissenschaftliche Forschung mit reduzierten Verpflichtungen – aber nur, wenn "angemessene Schutzmaßnahmen" implementiert sind. Die Veröffentlichung individueller Daten in Methodologie-Screenshots ohne Anonymisierung ist keine angemessene Schutzmaßnahme; es ist eine Offenlegung.

Das Ausmaß des Problems

Die Inzidenz ist nicht selten. Eine systematische Überprüfung von Datenwissenschaftsarbeiten, die zwischen 2022 und 2024 in hochrangigen Zeitschriften veröffentlicht wurden, würde wahrscheinlich einen erheblichen Anteil an Bildern mit sichtbaren individuellen Daten finden.

Die beitragenden Faktoren:

Reproduzierbarkeitsnormen: Die moderne wissenschaftliche Veröffentlichung erfordert zunehmend, dass Methoden mit ausreichenden Details dokumentiert werden, um Ergebnisse zu reproduzieren. Screenshots von Analyseumgebungen werden als Erfüllung dieser Norm angesehen.

Druck zur Veröffentlichung: Unter Zeitdruck erstellen Forscher Screenshots schnell, ohne jedes Bild auf den Dateninhalt zu überprüfen.

Geringe Sichtbarkeit von Daten in Bildern: Ein Screenshot eines DataFrame mit 20 Spalten und 5 Zeilen kann Namen und IDs in peripheren Spalten enthalten, auf die der Forscher bei der Dokumentation des Analyseverfahrens nicht fokussiert.

Keine automatisierte Überprüfung in Einreichungsabläufen: Standard-Zeitschrifteneinreichungsportale führen Vollständigkeitsprüfungen, Formatprüfungen und Plagiatsprüfungen durch. Keine führt eine PII-Erkennung in Bildern durch.

Screening-Implementierung für Forschungsgruppen

Ein praktischer Workflow für eine Forschungsgruppe, die PII-Screening für Manuskripte implementiert:

Vorab-Protokoll:

  1. Forscher vervollständigt den Entwurf des Manuskripts mit allen Abbildungen
  2. Entwurf wird zur internen Überprüfung eingereicht (PI oder benannter Gutachter)
  3. Bild-PII-Erkennung wird auf alle Bilddateien angewendet, die dem Manuskript angehängt sind
  4. Der Erkennungsbericht identifiziert: welche Bilder lesbaren Text enthalten, welcher Text PII-Entitätsmuster entspricht
  5. Forscher überprüft markierte Bilder
  6. Für jedes markierte Bild: ersetzen durch einen ordnungsgemäß anonymisierten Screenshot (ersetze Patienten-ID 12847 mit ID 00001, ersetze echten Namen mit "Patient A")
  7. Endgültiges Manuskript wird mit anonymisierten Screenshots an die Zeitschrift eingereicht

Technische Integrationsoptionen:

  • Manuell: exportiere alle Manuskriptbilder, führe eine Batch-Bild-PII-Erkennung durch, überprüfe den Bericht
  • Teilautomatisiert: dedizierter Ordner, in dem Entwurfsmanuskripte abgelegt werden; wöchentliche Batchverarbeitung neuer Dateien
  • Workflow-integriert: institutionelles Einreichungsportal mit einem Schritt zur Vorabüberprüfung

Die Zeitkosten für das Screening sind gering: für ein typisches Manuskript mit 15 Abbildungen dauert die Bild-PII-Erkennung weniger als 2 Minuten. Die Zeitkosten für eine Rücknahme oder Feststellung der Ethikkommission werden in Monaten gemessen.

Anwendungsfall: Europäische Universitätsforschungs-Ethische Anforderung

Eine Forschungsgruppe für Datenwissenschaft an einer europäischen Universität implementierte das Bild-PII-Screening als Teil ihres Manuskripteinreichungs-Workflows nach einem Beinahe-Vorfall: Bei der Überprüfung eines eingereichten Papiers wurden individuelle Patientennamen in einem DataFrame-Screenshot entdeckt, der als Methodologieillustration enthalten war.

Implementierung:

  • Alle Entwurfspapiere werden vor der Einreichung an Zeitschriften auf Bild-PII verarbeitet
  • Das Screening umfasst alle PNG-, JPG- und PDF-Abbildungen im Entwurf
  • Ergebnisse werden vom benannten Datenschutzbeauftragten der Gruppe überprüft

Ergebnisse über 6 Monate:

  • 23 Manuskripte vor der Einreichung gescreent
  • 7 Manuskripte (30%) hatten mindestens ein Bild mit erkennbaren PII-Entitäten
  • Gefundene Entitätstypen: Patientennamen in DataFrames (4 Papiere), Benutzer-IDs, die den Patientenregistrierungsformaten entsprechen (2 Papiere), E-Mail-Adressen in den Randbereichen von Screenshots (1 Papier)
  • Alle 7 vor der Einreichung korrigiert
  • Null Rücknahmeanträge oder Ethikfeststellungen nach der Einreichung während des Zeitraums

Das Forschungsethikkomitee der Institution verwendet jetzt diesen Workflow als dokumentiertes Beispiel für "angemessene Schutzmaßnahmen" in Anträgen auf Forschungsbefreiungen gemäß Artikel 89 der DSGVO.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.