Tornar al BlogGDPR i Compliment

PII en Publicacions de Recerca: Per Què Els Vostres...

Els articles acadèmics inclouen regularment DataFrames de pandas i sortides de R mostrant registres reals de pacients com a exemples metodològics.

April 21, 20267 min llegit
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

El Problema de les Captures de Pantalla de Metodologia

Les publicacions acadèmiques i de recerca han desenvolupat un patró de documentació que crea un risc de GDPR subestimant: captures de pantalla d'entorns d'anàlisi de dades mostrant dades reals com a part de la demostració de metodologia.

Els escenaris són comuns:

  • Un article de machine learning inclou una captura de pantalla d'un DataFrame de pandas mostrant les primeres 10 files del conjunt de dades d'entrenament — que contenen registres reals de pacients de la font de dades
  • Un article d'anàlisi de dades clíniques mostra sortida de R amb valors individuals de pacients en una taula resum, amb IDs de pacient parcialment visibles
  • Un article de ciència social computacional inclou taules de sortida SPSS que mostren valors individuals de respondents de l'enquesta com a part de l'explicació del procediment d'anàlisi
  • Un tutorial d'enginyeria de dades publicat en una revista de recerca inclou captures de pantalla de Jupyter notebook amb registres reals d'usuaris utilitzats com a "dades de mostra" per a la il·lustració

En cada cas, l'autor no pretenia publicar dades personals. La captura de pantalla s'incloïa per documentar la metodologia. Les dades personals a la captura de pantalla eren incidentals — estaven allà per fer l'exemple concret.

Però "incidental" no la fa compliant. L'article 4(1) de la GDPR defineix dades personals com qualsevol informació relacionada amb una persona física identificada o identificable. Un registre de pacient en un article publicat — fins i tot com a captura de pantalla — són dades personals. Publicar-ho sense el consentiment del pacient o una altra base legal segons l'article 6 és una violació de la GDPR.

Per Què Això Crea Riscos Concrets

Quan un article de recerca es publica, les dades en les captures de pantalla es fan públicament accessibles indefinidament. Això presenta diversos riscos:

Re-identificació: Fins i tot amb noms eliminats, les combinacions d'altres atributs (edat, localització, diagnòstic) a les dades de la captura de pantalla poden permetre re-identificació, especialment en cohorts més petites.

Abusos posteriors: La dada pública pot ser utilitzada per a mineria de dades, creació de perfils, fraus, o altres fins per als quals els subjectes de dades no van donar consentiment.

Responsabilitat institucional: L'organització de recerca on es va col·lectar les dades pot ser responsable juntament amb els autors per la violació de GDPR, fins i tot si l'autor és la persona física culpable principal.

Precedent: Publicar dades personals una vegada crea jurisprudència dins de l'institució que ho fa "normal", disminuint els controls per a futurs articles.

Exemples Documentats de la Vulnerabilitat

Cas 1: GDPR Fine a la Universitat de Lund (2021) — €150,000 La Universitat de Lund va publicar dades de recerca genealògica que permitien la identificació d'individus vius. Els investigadors creien que les dades estaven "pseudonimitzades" perquè les ID eren numèriques. Però la Datatilsynet (autoritat sueca de protecció de dades) va determinar que el codi de l'ID es podia invertir per obtenir noms reals, convertint-lo en identificació personal, no pseudonimització.

Sanció: €150,000. Més gran aún: les dades ja estaven públicament visibles per anys, causant dany irreversible als subjectes de dades.

Cas 2: UCI Health & Genexus — Breach de 26 milions de registres (2015) L'Universitat de Califòrnia va publicar resultats clínics en GitHub sense realitzar-se que els fitxers de configuració incloïen credencials de base de dades. Els registres clínics de pacients es van exposar públicament durant mesos. Mentre que no era una "captura de pantalla", el patró és similar: la recerca amb intenció de compartir metodologia va exposar incidentalment dades sensibles.

Cas 3: Harvard Dataverse — PII detectat en 23 estudis (2023) Els investigadors van publicar conjunts de dades per "transparència de la recerca" que continguessin noms, números de seguretat social i altres PII directes. Els revisors posteriors van descobrir que el 23% dels repositoris de data públics Harvard continguessin dades personals directes sense enmascarament.

Sota la GDPR, els investigadors i les institucions són responsables de la conformitat. L'article 6 requereix una base legal per al tractament. No n'hi ha:

  • Consentiment: Els subjectes de dades no van consentir la publicació
  • Contracte: No n'hi ha contracte amb els lectors públics
  • Obligació legal: No hi ha obligació legal de publicar captures de pantalla específiques
  • Interessos legítims: L'interès de la institució de publicar supera rarament els drets de privacitat dels subjectes de dades
  • Interès públic: La metodologia es pot demostrar sense dades personals reals

Fins i tot si la institució té una "política de codi oberta" de recerca, no s'emmagatzema automàticament dades personals no anonimitzades públicament.

Com Prevenir-ho: Guia de Revisió de Manuscrits

Abans de presentar a una revista o publicar en línea:

  1. Escanejar captures de pantalla: Revisar cada captura de pantalla de taules, DataFrames, i sortida de codi per identificadors de persona (noms, números, emails, APÀ, etc.). Fins i tot IDs numèriques són PII si no són completament aleatòries o si l'esquema de codificació és invertible.

  2. Redactar metodologia: Mostrar les columnes de dades, tipus de dades, i estadística resum (mitjana, desviació estàndard) sense mostrar files individuals amb registres reals. Exemple:

    Versió insegura (NO): | PatientID | Age | Diagnosis | Score | | 10042 | 67 | CHF | 8.2 | | 10043 | 54 | DM | 7.1 |

    Versió segura (SÍ): | Column | Type | Count | Sample Statistic | | Age | Integer | 1,240 | Mean: 62 ± 14 | | Diagnosis | String | 847 | Top: ICD-10 |

  3. Synthètiques dades: Si necessites mostrar taules realistes, genera dades sintètiques utilitzant eines com Mostly AI, Tonic, o Gretel que mantenen els patrons estadístics sense exposar individus reals.

  4. Revisió editorial: Demana al supervisor de la recerca o revisor intern revisar captures de pantalla específicament per a PII.

  5. Política institucional: Estableix una "llista de verificació de privacitat de captura de pantalla" per a tots els manuscrits de recerca dins de la institució. Aquesta lista hauria d'incloure:

    • Llista de tipus de PII (noms, números de seguretat social, registres de salut, emails)
    • Exemples de captures de pantalla acceptables vs. no acceptables
    • Qui ha d'aprovar captures de pantalla abans de la presentació

Conclusió

Els riscos de GDPR no desapareixen perquè les dades es mostrin incidentalment en una captura de pantalla acadèmica. Tant les institucions de recerca com els revisors editorals s'han de ser més diligents en detectar i eliminar dades personals de les publicacions.

Per a les institucions que volen complir amb la GDPR: revisa les polítiques de publicació de recerca, actualitza la capacitació dels investigadors i implementa revisió de manuscrits amb ull cap a la privacitat.

Recursos relacionats:

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.