Problém snímků metodologie

Akademické a výzkumné publikace vyvinuly dokumentační vzor, který vytváří nedoceněné riziko v oblasti GDPR: snímky prostředí pro analýzu dat zobrazující reálná data jako součást demonstrace metodologie.

Tyto scénáře jsou běžné:

Článek o strojovém učení obsahuje snímek pandas DataFramu zobrazujícího prvních 10 řádků trénovací datové sady — která obsahuje skutečné záznamy pacientů ze zdroje dat
Článek o analýze klinických dat zobrazuje výstup R s hodnotami jednotlivých pacientů v souhrnné tabulce, přičemž ID pacientů jsou částečně viditelná
Článek z oblasti výpočetních sociálních věd obsahuje výstupní tabulky SPSS zobrazující hodnoty jednotlivých respondentů průzkumu jako součást vysvětlení analytického postupu
Výukový materiál pro datové inženýrství publikovaný ve výzkumném časopise obsahuje snímky Jupyter notebooku se skutečnými záznamy uživatelů použitými jako „vzorová data” pro ilustraci

V každém případě autor neměl v úmyslu zveřejnit osobní údaje. Snímek byl zahrnut za účelem dokumentace metodologie. Osobní údaje na snímku byly vedlejší — sloužily k tomu, aby byl příklad konkrétní.

Avšak „vedlejší” neznamená soulad s předpisy. Článek 4 odst. 1 GDPR definuje osobní údaje jako jakékoli informace vztahující se k identifikované nebo identifikovatelné fyzické osobě. Záznam pacienta v publikovaném článku — i jako snímek — je osobním údajem. Jeho zveřejnění bez souhlasu pacienta nebo jiného právního základu dle článku 6 je porušením GDPR.

Proč to vytváří konkrétní právní riziko

Výzkumné instituce se stále více setkávají s vymáháním GDPR za selhání při zveřejnění dat. Klíčový vývoj:

Žádosti o stažení časopisů: Právo na výmaz dle GDPR (článek 17) se vztahuje i na zveřejněná data. Pokud subjekt údajů objeví své osobní údaje v publikovaném článku, může požádat o výmaz — což pro časopisecký článek typicky znamená stažení nebo oznámení o opravě. Stažení článku je závažný profesní důsledek.

Zjištění etických komisí pro výzkum: Etické komise posuzující zveřejněný výzkum z hlediska souladu s GDPR začínají vydávat zjištění pro práce, které zahrnují data na úrovni jednotlivců ve snímcích bez odpovídajících záruk. Tato zjištění ovlivňují postavení výzkumníků u etických komisí pro budoucí výzkum.

Porušení dohod o přístupu k datům: Většina výzkumných datových sad je sdílena na základě smluv o přístupu k datům specifikujících, jak mohou být data použita a co může být publikováno. Zahrnutí dat na úrovni jednotlivců do publikačních snímků, i jako náhledy, může porušovat tuto smlouvu — s důsledky zahrnujícími ztrátu přístupu k datům.

Omezení výzkumné výjimky dle článku 89 GDPR: Článek 89 GDPR umožňuje zpracování osobních údajů pro vědecký výzkum se sníženými povinnostmi — ale pouze tam, kde jsou implementovány „odpovídající záruky.” Zveřejnění dat na úrovni jednotlivců ve snímcích metodologie bez anonymizace není odpovídající zárukou; je to zpřístupnění.

Rozsah problému

Výskyt není vzácný. Systematický přehled prací z oblasti datové vědy publikovaných v časopisech s vysokým impakt faktorem v letech 2022–2024 by pravděpodobně odhalil, že značná část obsahuje obrázky s viditelnými daty na úrovni jednotlivců.

Přispívající faktory:

Normy reprodukovatelnosti: Moderní vědecké publikování stále více vyžaduje, aby metody byly zdokumentovány s dostatečnými podrobnostmi pro reprodukci výsledků. Snímky analytických prostředí jsou považovány za splnění této normy.

Rychlost publikování: Pod tlakem termínů výzkumníci rychle vytvářejí snímky bez kontroly každého obrazu na obsah dat.

Nízká viditelnost dat v obrázcích: Snímek DataFramu s 20 sloupci a 5 řádky může mít jména a ID v okrajových sloupcích, na které se výzkumník nezaměří při dokumentaci analytického postupu.

Žádná automatická kontrola v pracovních postupech pro podávání: Standardní portály pro podávání časopisů provádějí kontroly úplnosti, formátu a plagiátorství. Žádný neprovádí detekci PII v obrazech.

Implementace kontroly pro výzkumné skupiny

Praktický postup pro výzkumnou skupinu implementující kontrolu PII v rukopisu:

Protokol před podáním:

Výzkumník dokončí návrh rukopisu se všemi obrázky
Návrh je předán k interní kontrole (vedoucí práce nebo určený kontrolor)
Detekce PII v obrazech proběhne na všech obrázkových souborech přiložených k rukopisu
Zpráva o detekci identifikuje: které obrázky obsahují čitelný text, který text odpovídá vzorům entit PII
Výzkumník zkontroluje označené obrázky
Pro každý označený obrázek: nahrazení správně anonymizovaným snímkem (nahrazení ID pacienta 12847 ID 00001, nahrazení skutečného jména výrazem „Pacient A”)
Finální rukopis podán do časopisu s anonymizovanými snímky

Možnosti technické integrace:

Ruční: exportujte všechny obrázky rukopisu, spusťte dávkovou detekci PII v obrazech, zkontrolujte zprávu
Poloautomatická: vyhrazená složka, do které jsou ukládány návrhy rukopisů; týdenní dávkové zpracování nových souborů
Integrované do pracovního postupu: institucionální portál pro podávání s krokem pro kontrolu před podáním

Časové náklady na kontrolu jsou nízké: pro typický rukopis s 15 obrázky trvá detekce PII méně než 2 minuty. Časové náklady na stažení nebo zjištění etické komise se měří v měsících.

Případová studie: Požadavek etické komise pro výzkum evropské univerzity

Výzkumná skupina v oblasti datové vědy na evropské univerzitě implementovala kontrolu PII v obrazech jako součást svého pracovního postupu pro podávání rukopisů po téměř incidentu: recenze podaného článku odhalila jména jednotlivých pacientů ve snímku DataFramu, který byl zahrnut jako ilustrace metodologie.

Implementace:

Všechny návrhy článků procházejí kontrolou PII v obrazech před podáním do časopisů
Kontrola pokrývá všechny obrázky PNG, JPG a PDF v návrhu
Výsledky jsou přezkoumány jmenovaným kontaktním pracovníkem pro ochranu dat ve skupině

Výsledky za 6 měsíců:

23 rukopisů zkontrolováno před podáním
7 rukopisů (30 %) mělo alespoň jeden obrázek s detekovatelnými entitami PII
Nalezené typy entit: jména pacientů v DataFramech (4 práce), ID uživatelů odpovídající formátům registrace pacientů (2 práce), e-mailové adresy na okrajích snímků (1 práce)
Všech 7 opraveno před podáním
Nula žádostí o stažení nebo zjištění etické komise po podání v daném období

Etická komise pro výzkum instituce nyní používá tento postup jako zdokumentovaný příklad „odpovídajících záruk” v žádostech o výzkumnou výjimku dle článku 89 GDPR.

Zdroje:

Související články

GDPR a shoda

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

Začít bezplatnou zkušební verzi Zobrazit funkce

PII ve výzkumných publikacích: snímky obrazovky a GDPR

Problém snímků metodologie

Proč to vytváří konkrétní právní riziko

Rozsah problému

Implementace kontroly pro výzkumné skupiny

Případová studie: Požadavek etické komise pro výzkum evropské univerzity

Související články

Vlastní PII nástroje selhávají při compliance auditech

Presidio přehlédne více než 220 entit GDPR

Posun konfigurace: Skryté riziko GDPR

Připraveni chránit svá data?

PII ve výzkumných publikacích: snímky obrazovky a GDPR

Problém snímků metodologie

Proč to vytváří konkrétní právní riziko

Rozsah problému

Implementace kontroly pro výzkumné skupiny

Případová studie: Požadavek etické komise pro výzkum evropské univerzity

Související články

Vlastní PII nástroje selhávají při compliance auditech

Presidio přehlédne více než 220 entit GDPR

Posun konfigurace: Skryté riziko GDPR

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow