Vissza a BlograGDPR & Megfelelés

Kutatási Publikáció PII: Miért Sérthetik GDPR-t az...

A kutatók elemzési képernyőfotókba foglalják az adatokat, amelyek személyes adatokat tartalmazhatnak.

April 21, 20267 perc olvasás
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

A Módszertani Képernyőkép Probléma

Az akadémiai és kutatói kiadványok olyan dokumentációs mintát alakítottak ki, amely egy kevéssé felismert GDPR-kockázatot teremt: adatelemzési környezetek képernyőképei valós adatokkal a módszertan bemutatásaképpen.

A forgatókönyvek közönségesek:

  • Egy gépi tanulási cikk egy pandas DataFrame képernyőképét tartalmazza, amely a betanítási adatkészlet első 10 sorát mutatja — amelyek valós beteggel rendelkeznek az adatforrásból
  • Egy klinikai adatelemzési cikk R-kimenetet mutat egyéni betegértékekkel egy összefoglaló táblázatban, részben látható beteg-azonosítókkal
  • Egy számítási társadalomtudományi cikk SPSS-kimeneti táblákat tartalmaz, amelyek egyéni felmérési válaszadói értékeket mutatnak az elemzési eljárás magyarázataként
  • Egy kutatási folyóiratban megjelent adatmérnöki oktatóanyag Jupyter Notebook képernyőképeket tartalmaz valós felhasználói rekordokkal illusztrációként

Minden esetben a szerző nem szándékozta személyes adatokat publikálni. A képernyőkép a módszertan dokumentálásához volt belefoglalva. A képernyőképen lévő személyes adatok mellékesek voltak — azért voltak ott, hogy a példát konkréttá tegyék.

De a "mellékesség" nem teszi megfelelővé. A GDPR 4(1) cikke a személyes adatokat azonosított vagy azonosítható természetes személyre vonatkozó bármely információként határozza meg. Egy közzétett cikkben lévő betegrekord — még képernyőképként is — személyes adat. A beteg hozzájárulása vagy a 6. cikk szerinti más jogalap nélkül való közzétételük GDPR-megsértés.

Miért Teremt Konkrét Jogi Kockázatot Ez

A kutatóintézetek egyre inkább GDPR-végrehajtással szembesülnek adatpublikációs hibák miatt. Főbb fejlemények:

Folyóirat-visszavonási kérelmek: A GDPR törléshez való jog (17. cikk) a közzétett adatokra is kiterjed. Ha egy adatalany személyes adatait egy közzétett cikkben fedezi fel, kérheti a törlést — ami folyóirat-cikknél jellemzően visszavonást vagy helyesbítési értesítést jelent. A folyóirat-visszavonás komoly szakmai következménnyel jár.

Kutatásetikai bizottság megállapítások: A közzétett kutatást GDPR-megfelelőség szempontjából felülvizsgáló kutatásetikai bizottságok megállapításokat adtak ki megfelelő biztosítékok nélküli, egyéni szintű adatokat tartalmazó képernyőképek esetén. Ezek a megállapítások befolyásolják a kutatók jövőbeli kutatásokhoz való etikai bizottsági státuszát.

Adathozzáférési Megállapodás megsértések: A legtöbb kutatási adatkészletet Adathozzáférési Megállapodások (DAA) keretében osztják meg, amelyek meghatározzák az adatok felhasználásának és közzétételének módját. Az egyéni szintű adatok belefoglalása a közzétett képernyőképekbe, még bélyegképként is, sértheti a DAA-t — következményei közé tartozhat az adathozzáférési jogosultságok elvesztése.

A GDPR 89. cikk kutatási mentességének korlátai: A GDPR 89. cikke lehetővé teszi a személyes adatok tudományos kutatás céljából való feldolgozását csökkentett kötelezettségekkel — de csak akkor, ha "megfelelő biztosítékokat" valósítanak meg. Az egyéni szintű adatok anonimizálás nélküli közzététele módszertani képernyőképekben nem megfelelő biztosíték; közzététel.

A Probléma Terjedelme

Az előfordulás nem ritka. A 2022-2024 között nagy hatású folyóiratokban megjelent adattudományi cikkek szisztematikus felülvizsgálata valószínűleg jelentős arányban találna látható egyéni szintű adatokat tartalmazó képeket.

Hozzájáruló tényezők:

Reprodukálhatósági normák: A modern tudományos kiadás egyre inkább megköveteli, hogy a módszereket elegendő részletességgel dokumentálják az eredmények reprodukálhatóságához. Az elemzési környezetek képernyőképeit ennek a normának megfelelőnek tekintik.

A közzétételek sebessége: Határidő-nyomás alatt a kutatók gyorsan generálnak képernyőképeket anélkül, hogy minden képet átnéznének adattartalomra.

Az adatok alacsony láthatósága a képeken: Egy 20 oszlopos és 5 soros DataFrame képernyőképe tartalmazhat neveket és azonosítókat a perifériás oszlopokban, amelyekre a kutató nem figyel, amikor az elemzési eljárást dokumentálja.

Nincs automatizált ellenőrzés a beküldési munkafolyamatban: A standard folyóirat-beküldési portálok teljességi ellenőrzéseket, formátum-ellenőrzéseket és plágiumszűrést végeznek. Egyikük sem végez képekre vonatkozó PII-észlelést.

Szűrési Megvalósítás Kutatócsoportoknak

Egy kézirat PII-szűrést megvalósító kutatócsoport praktikus munkafolyamata:

Beküldés előtti protokoll:

  1. A kutató elkészíti a kézirat tervezetét az összes ábrával
  2. A tervezet benyújtva belső szűrésre (vezető kutató vagy kijelölt ellenőr)
  3. Képalapú PII-észlelés fut a kézirathoz csatolt összes képfájlon
  4. A észlelési jelentés azonosítja: melyik képek tartalmaznak olvasható szöveget, melyik szöveg felel meg PII-entitás mintáknak
  5. A kutató átnézi a megjelölt képeket
  6. Minden megjelölt képnél: cserélje le megfelelően anonimizált képernyőképre (helyettesítse a 12847-es beteg-azonosítót 00001-gyel, valódi nevet "A Beteg"-gel)
  7. Végső kézirat benyújtva a folyóiratnak anonimizált képernyőképekkel

Technikai integrációs lehetőségek:

  • Manuális: exportálja az összes kézirati képet, futtasson kötegelt kép-PII-észlelést, nézze át a jelentést
  • Félig-automatizált: dedikált mappa, ahova tervezetek kerülnek; heti kötegelt feldolgozás az új fájlokon
  • Munkafolyamat-integrált: intézményi beküldési portál beküldés előtti szűrési lépéssel

A szűrés időköltsége alacsony: egy tipikus 15 ábrás kéziratnál a kép-PII-észlelés 2 percen belül megtörténik. Egy visszavonás vagy etikai bizottsági megállapítás időköltsége hónapokban mérhető.

Felhasználási Eset: Európai Egyetem Kutatásetikai Követelménye

Egy európai egyetem adattudományi kutatócsoportja közel-hibaeset után megvalósította a kép-PII-szűrést a kézirati beküldési munkafolyamatukban: egy benyújtott cikk áttekintése egyéni betegneveket fedett fel egy DataFrame képernyőképben, amelyet módszertani illusztrációként foglaltak bele.

Megvalósítás:

  • A folyóiratokba beküldés előtt minden cikktervezet feldolgozva kép-PII ellenőrzéssel
  • A szűrés lefedi az összes PNG, JPG és PDF ábrát a tervezetben
  • Az eredményeket a csoport kijelölt adatvédelmi kapcsolattartója tekinti át

Eredmények 6 hónap alatt:

  • 23 kézirat szűrve beküldés előtt
  • 7 kéziratnál (30%) legalább egy, észlelhető PII-entitásokat tartalmazó kép volt
  • Talált entitástípusok: betegnevek DataFrame-ben (4 cikk), betegregisztrációs formátumnak megfelelő felhasználói azonosítók (2 cikk), e-mail-címek képernyőkép margóján (1 cikk)
  • Mind a 7 kézirat javítva beküldés előtt
  • Nulla beküldés utáni visszavonási kérelem vagy etikai megállapítás az időszakban

Az intézmény kutatásetikai bizottsága most ezt a munkafolyamatot a GDPR 89. cikkű kutatási mentességi kérelmekben a "megfelelő biztosítékok" dokumentált példájaként használja.

Források:

Készen áll az adatai védelmére?

Kezdje el a PII anonimizálását 285+ entitástípuson 48 nyelven.