Problema capturilor de metodologie

Publicațiile academice și de cercetare au dezvoltat un model de documentare care creează un risc GDPR subestimat: capturi de ecran ale mediilor de analiză a datelor care arată date reale ca parte a demonstrării metodologiei.

Scenariil sunt comune:

Un articol de machine learning include o captură a unui DataFrame pandas care arată primele 10 rânduri ale setului de date de antrenare — care conține dosare reale ale pacienților din sursa de date
Un articol de analiză a datelor clinice arată ieșire R cu valori individuale ale pacienților într-un tabel rezumat, cu ID-urile pacienților parțial vizibile
Un articol de știință socială computațională include tabele de ieșire SPSS care arată valorile individuale ale respondenților la sondaj ca parte a explicării procedurii de analiză
Un tutorial de inginerie a datelor publicat într-un jurnal de cercetare include capturi ale notebook-urilor Jupyter cu înregistrări reale ale utilizatorilor folosite ca „date de exemplu” pentru ilustrare

În fiecare caz, autorul nu a intenționat să publice date personale. Captura a fost inclusă pentru a documenta metodologia. Datele personale din captură erau incidentale — acolo pentru a face exemplul concret.

Dar „incidental” nu înseamnă conform. GDPR Articolul 4(1) definește datele personale ca orice informație referitoare la o persoană fizică identificată sau identificabilă. Un dosar de pacient dintr-un articol publicat — chiar și ca captură — este o dată personală. Publicarea sa fără consimțământul pacientului sau alt temei juridic conform Articolului 6 este o încălcare GDPR.

De ce creează aceasta risc juridic concret

Instituțiile de cercetare se confruntă din ce în ce mai mult cu aplicarea GDPR pentru eșecuri de publicare a datelor. Evoluții cheie:

Cereri de retractare a jurnalelor: Dreptul GDPR la ștergere (Articolul 17) se extinde la datele publicate. Dacă un subiect de date descoperă datele sale personale într-un articol publicat, poate solicita ștergerea — care pentru un articol de jurnal înseamnă de obicei retractarea sau o notificare de corecție. Retractarea jurnalului este o consecință profesională semnificativă.

Constatări ale comitetelor de etică în cercetare: Comitetele de etică în cercetare care revizuiesc cercetarea publicată pentru conformitatea GDPR au început să emită constatări pentru articolele care includ date la nivel individual în capturi fără garanții corespunzătoare. Aceste constatări afectează poziția cercetătorilor la comitetele de etică pentru cercetările viitoare.

Încălcări ale Acordurilor de acces la date: Cele mai multe seturi de date de cercetare sunt partajate în temeiul Acordurilor de acces la date care specifică modul în care datele pot fi utilizate și ce poate fi publicat. Includerea datelor la nivel individual în capturi de publicare, chiar și ca miniaturi, poate încălca DAA — cu consecințe incluzând pierderea privilegiilor de acces la date.

Limitările excepției de cercetare GDPR Articolul 89: GDPR Articolul 89 permite prelucrarea datelor personale pentru cercetarea științifică cu obligații reduse — dar numai acolo unde sunt implementate „garanții corespunzătoare”. Publicarea datelor la nivel individual în capturi de metodologie fără anonimizare nu este o garanție corespunzătoare; este o divulgare.

Amploarea problemei

Incidența nu este rară. O revizuire sistematică a articolelor de știința datelor publicate în jurnale de impact ridicat între 2022-2024 ar găsi probabil o proporție semnificativă care conțin imagini cu date la nivel individual vizibile.

Factorii contributori:

Norme de reproductibilitate: Publicarea științifică modernă solicită din ce în ce mai mult ca metodele să fie documentate cu detalii suficiente pentru a reproduce rezultatele. Capturile mediilor de analiză sunt văzute ca satisfăcând această normă.

Viteza publicării: Sub presiunea termenelor, cercetătorii generează capturi rapid fără a revizui fiecare imagine pentru conținut de date.

Vizibilitate scăzută a datelor în imagini: O captură a unui DataFrame cu 20 de coloane și 5 rânduri poate avea nume și ID-uri în coloane periferice la care cercetătorul nu se concentrează când documentează procedura de analiză.

Nicio verificare automată în fluxurile de lucru de trimitere: Portalurile standard de trimitere a jurnalelor efectuează verificări de completitudine, verificări de format și screening de plagiat. Niciuna nu efectuează detectarea datelor personale din imagini.

Implementarea screening-ului pentru grupuri de cercetare

Un flux de lucru practic pentru un grup de cercetare care implementează screening-ul datelor personale din manuscrise:

Protocol pre-trimitere:

Cercetătorul completează ciorna manuscrisului cu toate figurile
Ciorna trimisă pentru screening intern (PI sau revizor desemnat)
Detectarea datelor personale din imagini rulează pe toate fișierele imagine atașate la manuscris
Raportul de detectare identifică: ce imagini conțin text lizibil, ce text corespunde tiparelor de entități de date personale
Cercetătorul revizuiește imaginile marcate
Pentru fiecare imagine marcată: înlocuirea cu o captură corect anonimizată (înlocuirea ID-ului pacientului 12847 cu ID-ul 00001, înlocuirea numelui real cu „Pacientul A”)
Manuscrisul final trimis la jurnal cu capturi anonimizate

Opțiuni de integrare tehnică:

Manual: exportarea tuturor imaginilor manuscrisului, rularea detectării în lot a datelor personale din imagini, revizuirea raportului
Semi-automatizat: folder dedicat în care sunt depuse ciornele de manuscrise; procesarea în lot săptămânală rulează pe fișierele noi
Integrat în flux de lucru: portal de trimitere instituțional cu etapă de screening pre-trimitere

Costul de timp al screening-ului este scăzut: pentru un manuscris tipic cu 15 figuri, detectarea datelor personale din imagini durează sub 2 minute. Costul de timp al unei retractări sau al unei constatări a comitetului de etică se măsoară în luni.

Caz de utilizare: cerința de etică în cercetare a unei universități europene

Un grup de cercetare în știința datelor dintr-o universitate europeană a implementat screening-ul datelor personale din imagini ca parte a fluxului de lucru de trimitere a manuscriselor, după un caz la limită: revizuirea unui articol trimis a detectat numele individuale ale pacienților într-o captură a unui DataFrame care fusese inclusă ca ilustrație a metodologiei.

Implementare:

Toate ciornele de articole procesate pentru date personale din imagini înainte de trimiterea la jurnale
Screening-ul acoperă toate figurile PNG, JPG și PDF din ciornă
Rezultatele revizuite de contactul desemnat al grupului pentru confidențialitatea datelor

Rezultate pe 6 luni:

23 de manuscrise screened înainte de trimitere
7 manuscrise (30%) aveau cel puțin o imagine cu entități de date personale detectabile
Tipuri de entități găsite: numele pacienților în DataFrames (4 articole), ID-uri de utilizator corespunzând formatelor de înregistrare a pacienților (2 articole), adrese de e-mail în marginile capturilor (1 articol)
Toate 7 corectate înainte de trimitere
Zero cereri de retractare post-trimitere sau constatări etice în această perioadă

Comitetul de etică în cercetare al instituției folosește acum acest flux de lucru ca exemplu documentat de „garanții corespunzătoare” în cererile de excepție de cercetare conform GDPR Articolul 89.

Surse:

Articole Asemănătoare

GDPR & Conformitate

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

Începeți Proba Gratuită Vizualizați Funcționalitățile

Date personale în cercetare: capturi de analiză și GDPR

Problema capturilor de metodologie

De ce creează aceasta risc juridic concret

Amploarea problemei

Implementarea screening-ului pentru grupuri de cercetare

Caz de utilizare: cerința de etică în cercetare a unei universități europene

Articole Asemănătoare

Instrumentele PII auto-găzduite eșuează la auditurile de conformitate

Presidio ratează 220+ entități GDPR

Deriva configurației: un risc ascuns GDPR

Pregătit să vă protejați datele?

Date personale în cercetare: capturi de analiză și GDPR

Problema capturilor de metodologie

De ce creează aceasta risc juridic concret

Amploarea problemei

Implementarea screening-ului pentru grupuri de cercetare

Caz de utilizare: cerința de etică în cercetare a unei universități europene

Articole Asemănătoare

Instrumentele PII auto-găzduite eșuează la auditurile de conformitate

Presidio ratează 220+ entități GDPR

Deriva configurației: un risc ascuns GDPR

Pregătit să vă protejați datele?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow