Problemet med Metodologi-skjermbilder
Akademiske og forskningspublikasjoner har utviklet et dokumentasjonsmønster som skaper en undervurdert GDPR-risiko: skjermbilder av dataanalyse-miljøer som viser ekte data som en del av å demonstrere metodologi.
Scenarioene er vanlige:
- En maskinlæringsartikkel inkluderer et skjermbilde av en pandas DataFrame som viser de første 10 radene av treningsdatasettet — som inneholder ekte pasientjournaler fra datakilden
- En klinisk dataanalyse-artikkel viser R-utdata med individuelle pasientverdier i en oppsummeringstabell, med pasient-ID-er delvis synlige
- En artikkel innen beregningsmessig samfunnsvitenskap inkluderer SPSS-utdata-tabeller som viser individuelle verdier fra spørreundersøkelser som en del av å forklare analyseprosedyren
- En dataengineering-veiledning publisert i et forskningsjournal inkluderer Jupyter-notatbok-skjermbilder med ekte brukerdata brukt som "eksempeldata" for illustrasjonen
I hvert tilfelle hadde forfatteren ikke til hensikt å publisere personopplysninger. Skjermbildet ble inkludert for å dokumentere metodologi. De personlige dataene i skjermbildet var tilfeldige — der for å gjøre eksemplet konkret.
Men "tilfeldig" gjør det ikke i samsvar. GDPR Artikkel 4(1) definerer personopplysninger som enhver informasjon som gjelder en identifisert eller identifiserbar fysisk person. En pasientjournal i en publisert artikkel — selv som et skjermbilde — er personopplysninger. Å publisere det uten pasientens samtykke eller et annet lovlig grunnlag under Artikkel 6 er et brudd på GDPR.
Hvorfor Dette Skaper Konkrete Juridiske Risikoer
Forskningsinstitusjoner møter i økende grad GDPR-håndhevelse for feil ved datapublisering. Nøkkelutviklinger:
Tidsskrifts tilbakekallingsforespørsel: GDPR-retten til sletting (Artikkel 17) strekker seg til publiserte data. Hvis en registrert person oppdager sine personopplysninger i en publisert artikkel, kan de be om sletting — noe som for en tidsskriftartikkel typisk betyr tilbakekalling eller korrigeringsvarsel. Tilbakekalling av tidsskrift er en betydelig profesjonell konsekvens.
Funn fra forskningsetiske komiteer: Forskningsetiske komiteer som vurderer publisert forskning for GDPR-samsvar har begynt å utstede funn for artikler som inkluderer individuelle data i skjermbilder uten passende sikkerhetstiltak. Disse funnene påvirker forskernes stilling hos etiske komiteer for fremtidig forskning.
Brudd på datatilgangsavtaler: De fleste forskningsdatasett deles under datatilgangsavtaler som spesifiserer hvordan data kan brukes og hva som kan publiseres. Å inkludere individuelle data i publiserte skjermbilder, selv som miniatyrbilder, kan bryte DAA — med konsekvenser som tap av datatilgangsprivilegier.
Begrensninger i GDPR Artikkel 89 forskningsunntak: GDPR Artikkel 89 tillater behandling av personopplysninger for vitenskapelig forskning med reduserte forpliktelser — men bare der "passende sikkerhetstiltak" er implementert. Å publisere individuelle data i metodologiske skjermbilder uten anonymisering er ikke et passende sikkerhetstiltak; det er en avsløring.
Omfanget av Problemet
Forekomsten er ikke sjelden. En systematisk gjennomgang av datavitenskapelige artikler publisert i tidsskrifter med høy innvirkning mellom 2022-2024 vil sannsynligvis finne en betydelig andel som inneholder bilder med individuelle data synlige.
De medvirkende faktorene:
Reproduserbarhetsnormer: Moderne vitenskapelig publisering krever i økende grad at metoder dokumenteres med tilstrekkelig detalj for å reprodusere resultater. Skjermbilder av analyse-miljøer blir sett på som å oppfylle denne normen.
Publiseringshastighet: Under tidsfrister genererer forskere skjermbilder raskt uten å gjennomgå hvert bilde for datainnhold.
Lav synlighet av data i bilder: Et skjermbilde av en DataFrame med 20 kolonner og 5 rader kan ha navn og ID-er i perifere kolonner som forskeren ikke fokuserer på når de dokumenterer analyseprosedyren.
Ingen automatisert sjekk i innsending arbeidsflyter: Standard tidsskriftinnsendingportaler utfører fullstendighetskontroller, formatkontroller og plagiatkontroller. Ingen utfører bilde PII-detektering.
Implementering av Screening for Forskningsgrupper
En praktisk arbeidsflyt for en forskningsgruppe som implementerer manus PII-screening:
Pre-innsending protokoll:
- Forskeren fullfører manusutkast med alle figurer
- Utkastet sendes til intern screening (PI eller utpekt vurderer)
- Bilde PII-detektering kjøres på alle bildefiler knyttet til manus
- Deteksjonsrapport identifiserer: hvilke bilder som inneholder lesbar tekst, hvilken tekst som samsvarer med PII-enhetsmønstre
- Forskeren gjennomgår flaggede bilder
- For hvert flagget bilde: erstatt med riktig anonymisert skjermbilde (erstatte pasient-ID 12847 med ID 00001, erstatte ekte navn med "Pasient A")
- Endelig manus sendes til tidsskriftet med anonymiserte skjermbilder
Tekniske integrasjonsalternativer:
- Manuell: eksporter alle manusbilder, kjør batch bilde PII-detektering, gjennomgå rapport
- Semi-automatisert: dedikert mappe der utkast til manus lagres; ukentlig batchbehandling kjører på nye filer
- Arbeidsflyt-integrert: institusjonell innsending portal med pre-innsending screening trinn
Tidskostnaden for screening er lav: for et typisk manus med 15 figurer tar bilde PII-detektering under 2 minutter. Tidskostnaden for en tilbakekalling eller etisk komite-funn måles i måneder.
Brukstilfelle: Krav til Forskningsetikk ved Europeisk Universitet
En datavitenskapelig forskningsgruppe ved et europeisk universitet implementerte bilde PII-screening som en del av sin manusinnsending arbeidsflyt etter en nær-miss: en innsendt artikkels vurdering oppdaget individuelle pasientnavn i et DataFrame-skjermbilde som hadde blitt inkludert som en metodologisk illustrasjon.
Implementering:
- Alle utkast til artikler behandlet for bilde PII før innsending til tidsskrifter
- Screening dekker alle PNG, JPG, og PDF-figurer i utkastet
- Resultater gjennomgått av gruppens utpekte databeskyttelseskontakt
Resultater over 6 måneder:
- 23 manuskripter screenet før innsending
- 7 manuskripter (30%) hadde minst ett bilde med påvisbare PII-enheter
- Enhetstyper funnet: pasientnavn i DataFrames (4 artikler), bruker-ID-er som samsvarer med pasientregistreringsformater (2 artikler), e-postadresser i skjermbildekanter (1 artikkel)
- Alle 7 korrigert før innsending
- Null etter-innsending tilbakekallingsforespørsel eller etiske funn i perioden
Institusjonens forskningsetiske komité bruker nå denne arbeidsflyten som et dokumentert eksempel på "passende sikkerhetstiltak" i søknader om unntak for forskningsformål i GDPR Artikkel 89.
Kilder: