Problema capturilor de metodologie
Publicațiile academice și de cercetare au dezvoltat un model de documentare care creează un risc GDPR subestimat: capturi de ecran ale mediilor de analiză a datelor care arată date reale ca parte a demonstrării metodologiei.
Scenariil sunt comune:
- Un articol de machine learning include o captură a unui DataFrame pandas care arată primele 10 rânduri ale setului de date de antrenare — care conține dosare reale ale pacienților din sursa de date
- Un articol de analiză a datelor clinice arată ieșire R cu valori individuale ale pacienților într-un tabel rezumat, cu ID-urile pacienților parțial vizibile
- Un articol de știință socială computațională include tabele de ieșire SPSS care arată valorile individuale ale respondenților la sondaj ca parte a explicării procedurii de analiză
- Un tutorial de inginerie a datelor publicat într-un jurnal de cercetare include capturi ale notebook-urilor Jupyter cu înregistrări reale ale utilizatorilor folosite ca „date de exemplu” pentru ilustrare
În fiecare caz, autorul nu a intenționat să publice date personale. Captura a fost inclusă pentru a documenta metodologia. Datele personale din captură erau incidentale — acolo pentru a face exemplul concret.
Dar „incidental” nu înseamnă conform. GDPR Articolul 4(1) definește datele personale ca orice informație referitoare la o persoană fizică identificată sau identificabilă. Un dosar de pacient dintr-un articol publicat — chiar și ca captură — este o dată personală. Publicarea sa fără consimțământul pacientului sau alt temei juridic conform Articolului 6 este o încălcare GDPR.
De ce creează aceasta risc juridic concret
Instituțiile de cercetare se confruntă din ce în ce mai mult cu aplicarea GDPR pentru eșecuri de publicare a datelor. Evoluții cheie:
Cereri de retractare a jurnalelor: Dreptul GDPR la ștergere (Articolul 17) se extinde la datele publicate. Dacă un subiect de date descoperă datele sale personale într-un articol publicat, poate solicita ștergerea — care pentru un articol de jurnal înseamnă de obicei retractarea sau o notificare de corecție. Retractarea jurnalului este o consecință profesională semnificativă.
Constatări ale comitetelor de etică în cercetare: Comitetele de etică în cercetare care revizuiesc cercetarea publicată pentru conformitatea GDPR au început să emită constatări pentru articolele care includ date la nivel individual în capturi fără garanții corespunzătoare. Aceste constatări afectează poziția cercetătorilor la comitetele de etică pentru cercetările viitoare.
Încălcări ale Acordurilor de acces la date: Cele mai multe seturi de date de cercetare sunt partajate în temeiul Acordurilor de acces la date care specifică modul în care datele pot fi utilizate și ce poate fi publicat. Includerea datelor la nivel individual în capturi de publicare, chiar și ca miniaturi, poate încălca DAA — cu consecințe incluzând pierderea privilegiilor de acces la date.
Limitările excepției de cercetare GDPR Articolul 89: GDPR Articolul 89 permite prelucrarea datelor personale pentru cercetarea științifică cu obligații reduse — dar numai acolo unde sunt implementate „garanții corespunzătoare”. Publicarea datelor la nivel individual în capturi de metodologie fără anonimizare nu este o garanție corespunzătoare; este o divulgare.
Amploarea problemei
Incidența nu este rară. O revizuire sistematică a articolelor de știința datelor publicate în jurnale de impact ridicat între 2022-2024 ar găsi probabil o proporție semnificativă care conțin imagini cu date la nivel individual vizibile.
Factorii contributori:
Norme de reproductibilitate: Publicarea științifică modernă solicită din ce în ce mai mult ca metodele să fie documentate cu detalii suficiente pentru a reproduce rezultatele. Capturile mediilor de analiză sunt văzute ca satisfăcând această normă.
Viteza publicării: Sub presiunea termenelor, cercetătorii generează capturi rapid fără a revizui fiecare imagine pentru conținut de date.
Vizibilitate scăzută a datelor în imagini: O captură a unui DataFrame cu 20 de coloane și 5 rânduri poate avea nume și ID-uri în coloane periferice la care cercetătorul nu se concentrează când documentează procedura de analiză.
Nicio verificare automată în fluxurile de lucru de trimitere: Portalurile standard de trimitere a jurnalelor efectuează verificări de completitudine, verificări de format și screening de plagiat. Niciuna nu efectuează detectarea datelor personale din imagini.
Implementarea screening-ului pentru grupuri de cercetare
Un flux de lucru practic pentru un grup de cercetare care implementează screening-ul datelor personale din manuscrise:
Protocol pre-trimitere:
- Cercetătorul completează ciorna manuscrisului cu toate figurile
- Ciorna trimisă pentru screening intern (PI sau revizor desemnat)
- Detectarea datelor personale din imagini rulează pe toate fișierele imagine atașate la manuscris
- Raportul de detectare identifică: ce imagini conțin text lizibil, ce text corespunde tiparelor de entități de date personale
- Cercetătorul revizuiește imaginile marcate
- Pentru fiecare imagine marcată: înlocuirea cu o captură corect anonimizată (înlocuirea ID-ului pacientului 12847 cu ID-ul 00001, înlocuirea numelui real cu „Pacientul A”)
- Manuscrisul final trimis la jurnal cu capturi anonimizate
Opțiuni de integrare tehnică:
- Manual: exportarea tuturor imaginilor manuscrisului, rularea detectării în lot a datelor personale din imagini, revizuirea raportului
- Semi-automatizat: folder dedicat în care sunt depuse ciornele de manuscrise; procesarea în lot săptămânală rulează pe fișierele noi
- Integrat în flux de lucru: portal de trimitere instituțional cu etapă de screening pre-trimitere
Costul de timp al screening-ului este scăzut: pentru un manuscris tipic cu 15 figuri, detectarea datelor personale din imagini durează sub 2 minute. Costul de timp al unei retractări sau al unei constatări a comitetului de etică se măsoară în luni.
Caz de utilizare: cerința de etică în cercetare a unei universități europene
Un grup de cercetare în știința datelor dintr-o universitate europeană a implementat screening-ul datelor personale din imagini ca parte a fluxului de lucru de trimitere a manuscriselor, după un caz la limită: revizuirea unui articol trimis a detectat numele individuale ale pacienților într-o captură a unui DataFrame care fusese inclusă ca ilustrație a metodologiei.
Implementare:
- Toate ciornele de articole procesate pentru date personale din imagini înainte de trimiterea la jurnale
- Screening-ul acoperă toate figurile PNG, JPG și PDF din ciornă
- Rezultatele revizuite de contactul desemnat al grupului pentru confidențialitatea datelor
Rezultate pe 6 luni:
- 23 de manuscrise screened înainte de trimitere
- 7 manuscrise (30%) aveau cel puțin o imagine cu entități de date personale detectabile
- Tipuri de entități găsite: numele pacienților în DataFrames (4 articole), ID-uri de utilizator corespunzând formatelor de înregistrare a pacienților (2 articole), adrese de e-mail în marginile capturilor (1 articol)
- Toate 7 corectate înainte de trimitere
- Zero cereri de retractare post-trimitere sau constatări etice în această perioadă
Comitetul de etică în cercetare al instituției folosește acum acest flux de lucru ca exemplu documentat de „garanții corespunzătoare” în cererile de excepție de cercetare conform GDPR Articolul 89.
Surse: