anonym.legal
Torna al BlogGDPR e Conformità

Pubblicazione di Ricerca PII: Perché i Tuoi Screenshot di Analisi dei Dati Potrebbero Violare il GDPR Senza Che Tu Lo Sappia

Gli articoli accademici includono regolarmente DataFrame pandas e output R che mostrano veri record di pazienti come esempi di metodologia. Ecco perché questa è una violazione del GDPR e come esaminare i manoscritti prima della sottomissione.

March 7, 20267 min di lettura
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Il Problema degli Screenshot della Metodologia

Le pubblicazioni accademiche e di ricerca hanno sviluppato un modello di documentazione che crea un rischio di GDPR sottovalutato: screenshot di ambienti di analisi dei dati che mostrano dati reali come parte della dimostrazione della metodologia.

Gli scenari sono comuni:

  • Un articolo di machine learning include uno screenshot di un DataFrame pandas che mostra le prime 10 righe del dataset di addestramento — che contiene veri record di pazienti dalla fonte di dati
  • Un articolo di analisi dei dati clinici mostra output R con valori individuali dei pazienti in una tabella di sintesi, con ID pazienti parzialmente visibili
  • Un articolo di scienze sociali computazionali include tabelle di output SPSS che mostrano valori individuali dei rispondenti al sondaggio come parte della spiegazione della procedura di analisi
  • Un tutorial di ingegneria dei dati pubblicato in una rivista di ricerca include screenshot di notebook Jupyter con veri record utente utilizzati come "dati campione" per l'illustrazione

In ciascun caso, l'autore non intendeva pubblicare dati personali. Lo screenshot è stato incluso per documentare la metodologia. I dati personali nello screenshot erano incidentali — presenti per rendere l'esempio concreto.

Ma "incidentale" non lo rende conforme. L'articolo 4(1) del GDPR definisce i dati personali come qualsiasi informazione relativa a una persona fisica identificata o identificabile. Un record di paziente in un articolo pubblicato — anche come screenshot — è un dato personale. Pubblicarlo senza il consenso del paziente o un'altra base legale ai sensi dell'Articolo 6 è una violazione del GDPR.

Perché Questo Crea un Rischio Legale Concreto

Le istituzioni di ricerca affrontano sempre più l'applicazione del GDPR per fallimenti nella pubblicazione dei dati. Sviluppi chiave:

Richieste di ritiro di riviste: Il diritto all'oblio del GDPR (Articolo 17) si estende ai dati pubblicati. Se un soggetto dei dati scopre i propri dati personali in un articolo pubblicato, può richiederne la cancellazione — il che per un articolo di rivista significa tipicamente ritiro o avviso di correzione. Il ritiro di una rivista è una conseguenza professionale significativa.

Risultati dei comitati etici di ricerca: I comitati etici di ricerca che esaminano la ricerca pubblicata per la conformità al GDPR hanno iniziato a emettere risultati per articoli che includono dati a livello individuale in screenshot senza adeguate salvaguardie. Questi risultati influenzano la posizione dei ricercatori con i comitati etici per la ricerca futura.

Violazioni degli Accordi di Accesso ai Dati: La maggior parte dei dataset di ricerca è condivisa sotto Accordi di Accesso ai Dati che specificano come i dati possono essere utilizzati e cosa può essere pubblicato. Includere dati a livello individuale negli screenshot di pubblicazione, anche come miniature, può violare il DAA — con conseguenze che includono la perdita dei privilegi di accesso ai dati.

Limitazioni delle esenzioni per ricerca dell'Articolo 89 del GDPR: L'Articolo 89 del GDPR consente il trattamento dei dati personali per la ricerca scientifica con obblighi ridotti — ma solo dove sono implementate "adeguate salvaguardie". Pubblicare dati a livello individuale negli screenshot della metodologia senza anonimizzazione non è una salvaguardia adeguata; è una divulgazione.

L'Entità del Problema

L'incidenza non è rara. Una revisione sistematica degli articoli di scienza dei dati pubblicati in riviste ad alto impatto tra il 2022 e il 2024 troverebbe probabilmente una proporzione significativa contenente immagini con dati a livello individuale visibili.

I fattori contributivi:

Norme di riproducibilità: La pubblicazione scientifica moderna richiede sempre più che i metodi siano documentati con dettagli sufficienti per riprodurre i risultati. Gli screenshot degli ambienti di analisi sono visti come conformi a questa norma.

Velocità di pubblicazione: Sotto pressione di scadenza, i ricercatori generano rapidamente screenshot senza rivedere ogni immagine per il contenuto dei dati.

Bassa visibilità dei dati nelle immagini: Uno screenshot di un DataFrame con 20 colonne e 5 righe può avere nomi e ID in colonne periferiche su cui il ricercatore non si concentra quando documenta la procedura di analisi.

Nessun controllo automatico nei flussi di lavoro di sottomissione: I portali di sottomissione standard delle riviste eseguono controlli di completezza, controlli di formato e screening di plagio. Nessuno esegue la rilevazione di PII nelle immagini.

Implementazione dello Screening per i Gruppi di Ricerca

Un flusso di lavoro pratico per un gruppo di ricerca che implementa lo screening PII dei manoscritti:

Protocollo pre-sottomissione:

  1. Il ricercatore completa la bozza del manoscritto con tutte le figure
  2. La bozza viene inviata a screening interno (PI o revisore designato)
  3. La rilevazione di PII nelle immagini viene eseguita su tutti i file immagine allegati al manoscritto
  4. Il rapporto di rilevazione identifica: quali immagini contengono testo leggibile, quale testo corrisponde ai modelli di entità PII
  5. Il ricercatore rivede le immagini segnalate
  6. Per ogni immagine segnalata: sostituire con uno screenshot adeguatamente anonimizzato (sostituire l'ID paziente 12847 con ID 00001, sostituire il nome reale con "Paziente A")
  7. Il manoscritto finale viene inviato alla rivista con screenshot anonimizzati

Opzioni di integrazione tecnica:

  • Manuale: esportare tutte le immagini del manoscritto, eseguire la rilevazione batch di PII nelle immagini, rivedere il rapporto
  • Semi-automatizzato: cartella dedicata in cui vengono depositati i manoscritti in bozza; l'elaborazione batch settimanale viene eseguita su nuovi file
  • Integrato nel flusso di lavoro: portale di sottomissione istituzionale con passaggio di screening pre-sottomissione

Il costo temporale dello screening è basso: per un manoscritto tipico di 15 figure, la rilevazione di PII nelle immagini richiede meno di 2 minuti. Il costo temporale di un ritiro o di un riscontro del comitato etico è misurato in mesi.

Caso d'Uso: Requisito Etico di Ricerca Universitaria Europea

Un gruppo di ricerca di scienza dei dati in un'università europea ha implementato lo screening PII delle immagini come parte del loro flusso di lavoro di sottomissione dei manoscritti dopo un quasi incidente: la revisione di un articolo sottomesso ha rilevato nomi di pazienti individuali in uno screenshot di DataFrame che era stato incluso come illustrazione della metodologia.

Implementazione:

  • Tutti i manoscritti in bozza elaborati per PII delle immagini prima della sottomissione alle riviste
  • Lo screening copre tutte le figure PNG, JPG e PDF nella bozza
  • I risultati vengono esaminati dal contatto designato per la privacy dei dati del gruppo

Risultati dopo 6 mesi:

  • 23 manoscritti esaminati prima della sottomissione
  • 7 manoscritti (30%) avevano almeno un'immagine con entità PII rilevabili
  • Tipi di entità trovati: nomi di pazienti in DataFrames (4 articoli), ID utente corrispondenti ai formati di registrazione dei pazienti (2 articoli), indirizzi email nei margini degli screenshot (1 articolo)
  • Tutti e 7 corretti prima della sottomissione
  • Zero richieste di ritiro post-sottomissione o riscontri etici durante il periodo

Il comitato etico di ricerca dell'istituzione ora utilizza questo flusso di lavoro come esempio documentato di "adeguate salvaguardie" nelle domande di esenzione per ricerca dell'Articolo 89 del GDPR.

Fonti:

Pronto a proteggere i tuoi dati?

Inizia ad anonimizzare i PII con oltre 285 tipi di entità in 48 lingue.