A Módszertani Képernyőkép Probléma
Az akadémiai és kutatói kiadványok olyan dokumentációs mintát alakítottak ki, amely egy kevéssé felismert GDPR-kockázatot teremt: adatelemzési környezetek képernyőképei valós adatokkal a módszertan bemutatásaképpen.
A forgatókönyvek közönségesek:
- Egy gépi tanulási cikk egy pandas DataFrame képernyőképét tartalmazza, amely a betanítási adatkészlet első 10 sorát mutatja — amelyek valós beteggel rendelkeznek az adatforrásból
- Egy klinikai adatelemzési cikk R-kimenetet mutat egyéni betegértékekkel egy összefoglaló táblázatban, részben látható beteg-azonosítókkal
- Egy számítási társadalomtudományi cikk SPSS-kimeneti táblákat tartalmaz, amelyek egyéni felmérési válaszadói értékeket mutatnak az elemzési eljárás magyarázataként
- Egy kutatási folyóiratban megjelent adatmérnöki oktatóanyag Jupyter Notebook képernyőképeket tartalmaz valós felhasználói rekordokkal illusztrációként
Minden esetben a szerző nem szándékozta személyes adatokat publikálni. A képernyőkép a módszertan dokumentálásához volt belefoglalva. A képernyőképen lévő személyes adatok mellékesek voltak — azért voltak ott, hogy a példát konkréttá tegyék.
De a "mellékesség" nem teszi megfelelővé. A GDPR 4(1) cikke a személyes adatokat azonosított vagy azonosítható természetes személyre vonatkozó bármely információként határozza meg. Egy közzétett cikkben lévő betegrekord — még képernyőképként is — személyes adat. A beteg hozzájárulása vagy a 6. cikk szerinti más jogalap nélkül való közzétételük GDPR-megsértés.
Miért Teremt Konkrét Jogi Kockázatot Ez
A kutatóintézetek egyre inkább GDPR-végrehajtással szembesülnek adatpublikációs hibák miatt. Főbb fejlemények:
Folyóirat-visszavonási kérelmek: A GDPR törléshez való jog (17. cikk) a közzétett adatokra is kiterjed. Ha egy adatalany személyes adatait egy közzétett cikkben fedezi fel, kérheti a törlést — ami folyóirat-cikknél jellemzően visszavonást vagy helyesbítési értesítést jelent. A folyóirat-visszavonás komoly szakmai következménnyel jár.
Kutatásetikai bizottság megállapítások: A közzétett kutatást GDPR-megfelelőség szempontjából felülvizsgáló kutatásetikai bizottságok megállapításokat adtak ki megfelelő biztosítékok nélküli, egyéni szintű adatokat tartalmazó képernyőképek esetén. Ezek a megállapítások befolyásolják a kutatók jövőbeli kutatásokhoz való etikai bizottsági státuszát.
Adathozzáférési Megállapodás megsértések: A legtöbb kutatási adatkészletet Adathozzáférési Megállapodások (DAA) keretében osztják meg, amelyek meghatározzák az adatok felhasználásának és közzétételének módját. Az egyéni szintű adatok belefoglalása a közzétett képernyőképekbe, még bélyegképként is, sértheti a DAA-t — következményei közé tartozhat az adathozzáférési jogosultságok elvesztése.
A GDPR 89. cikk kutatási mentességének korlátai: A GDPR 89. cikke lehetővé teszi a személyes adatok tudományos kutatás céljából való feldolgozását csökkentett kötelezettségekkel — de csak akkor, ha "megfelelő biztosítékokat" valósítanak meg. Az egyéni szintű adatok anonimizálás nélküli közzététele módszertani képernyőképekben nem megfelelő biztosíték; közzététel.
A Probléma Terjedelme
Az előfordulás nem ritka. A 2022-2024 között nagy hatású folyóiratokban megjelent adattudományi cikkek szisztematikus felülvizsgálata valószínűleg jelentős arányban találna látható egyéni szintű adatokat tartalmazó képeket.
Hozzájáruló tényezők:
Reprodukálhatósági normák: A modern tudományos kiadás egyre inkább megköveteli, hogy a módszereket elegendő részletességgel dokumentálják az eredmények reprodukálhatóságához. Az elemzési környezetek képernyőképeit ennek a normának megfelelőnek tekintik.
A közzétételek sebessége: Határidő-nyomás alatt a kutatók gyorsan generálnak képernyőképeket anélkül, hogy minden képet átnéznének adattartalomra.
Az adatok alacsony láthatósága a képeken: Egy 20 oszlopos és 5 soros DataFrame képernyőképe tartalmazhat neveket és azonosítókat a perifériás oszlopokban, amelyekre a kutató nem figyel, amikor az elemzési eljárást dokumentálja.
Nincs automatizált ellenőrzés a beküldési munkafolyamatban: A standard folyóirat-beküldési portálok teljességi ellenőrzéseket, formátum-ellenőrzéseket és plágiumszűrést végeznek. Egyikük sem végez képekre vonatkozó PII-észlelést.
Szűrési Megvalósítás Kutatócsoportoknak
Egy kézirat PII-szűrést megvalósító kutatócsoport praktikus munkafolyamata:
Beküldés előtti protokoll:
- A kutató elkészíti a kézirat tervezetét az összes ábrával
- A tervezet benyújtva belső szűrésre (vezető kutató vagy kijelölt ellenőr)
- Képalapú PII-észlelés fut a kézirathoz csatolt összes képfájlon
- A észlelési jelentés azonosítja: melyik képek tartalmaznak olvasható szöveget, melyik szöveg felel meg PII-entitás mintáknak
- A kutató átnézi a megjelölt képeket
- Minden megjelölt képnél: cserélje le megfelelően anonimizált képernyőképre (helyettesítse a 12847-es beteg-azonosítót 00001-gyel, valódi nevet "A Beteg"-gel)
- Végső kézirat benyújtva a folyóiratnak anonimizált képernyőképekkel
Technikai integrációs lehetőségek:
- Manuális: exportálja az összes kézirati képet, futtasson kötegelt kép-PII-észlelést, nézze át a jelentést
- Félig-automatizált: dedikált mappa, ahova tervezetek kerülnek; heti kötegelt feldolgozás az új fájlokon
- Munkafolyamat-integrált: intézményi beküldési portál beküldés előtti szűrési lépéssel
A szűrés időköltsége alacsony: egy tipikus 15 ábrás kéziratnál a kép-PII-észlelés 2 percen belül megtörténik. Egy visszavonás vagy etikai bizottsági megállapítás időköltsége hónapokban mérhető.
Felhasználási Eset: Európai Egyetem Kutatásetikai Követelménye
Egy európai egyetem adattudományi kutatócsoportja közel-hibaeset után megvalósította a kép-PII-szűrést a kézirati beküldési munkafolyamatukban: egy benyújtott cikk áttekintése egyéni betegneveket fedett fel egy DataFrame képernyőképben, amelyet módszertani illusztrációként foglaltak bele.
Megvalósítás:
- A folyóiratokba beküldés előtt minden cikktervezet feldolgozva kép-PII ellenőrzéssel
- A szűrés lefedi az összes PNG, JPG és PDF ábrát a tervezetben
- Az eredményeket a csoport kijelölt adatvédelmi kapcsolattartója tekinti át
Eredmények 6 hónap alatt:
- 23 kézirat szűrve beküldés előtt
- 7 kéziratnál (30%) legalább egy, észlelhető PII-entitásokat tartalmazó kép volt
- Talált entitástípusok: betegnevek DataFrame-ben (4 cikk), betegregisztrációs formátumnak megfelelő felhasználói azonosítók (2 cikk), e-mail-címek képernyőkép margóján (1 cikk)
- Mind a 7 kézirat javítva beküldés előtt
- Nulla beküldés utáni visszavonási kérelem vagy etikai megállapítás az időszakban
Az intézmény kutatásetikai bizottsága most ezt a munkafolyamatot a GDPR 89. cikkű kutatási mentességi kérelmekben a "megfelelő biztosítékok" dokumentált példájaként használja.
Források: