Tilbake til BloggGDPR & Overholdelse

Forskning Publikasjon PII: Hvorfor Dine Dataanalyse-skjermbilder Kan Bryte GDPR Uten At Du Vet Det

Akademiske artikler inkluderer regelmessig pandas DataFrames og R-utdata som viser ekte pasientjournaler som metodologieksempler. Her er hvorfor dette er et brudd på GDPR og hvordan man kan screene manuskripter før innsending.

March 7, 20267 min lesing
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Problemet med Metodologi-skjermbilder

Akademiske og forskningspublikasjoner har utviklet et dokumentasjonsmønster som skaper en undervurdert GDPR-risiko: skjermbilder av dataanalyse-miljøer som viser ekte data som en del av å demonstrere metodologi.

Scenarioene er vanlige:

  • En maskinlæringsartikkel inkluderer et skjermbilde av en pandas DataFrame som viser de første 10 radene av treningsdatasettet — som inneholder ekte pasientjournaler fra datakilden
  • En klinisk dataanalyse-artikkel viser R-utdata med individuelle pasientverdier i en oppsummeringstabell, med pasient-ID-er delvis synlige
  • En artikkel innen beregningsmessig samfunnsvitenskap inkluderer SPSS-utdata-tabeller som viser individuelle verdier fra spørreundersøkelser som en del av å forklare analyseprosedyren
  • En dataengineering-veiledning publisert i et forskningsjournal inkluderer Jupyter-notatbok-skjermbilder med ekte brukerdata brukt som "eksempeldata" for illustrasjonen

I hvert tilfelle hadde forfatteren ikke til hensikt å publisere personopplysninger. Skjermbildet ble inkludert for å dokumentere metodologi. De personlige dataene i skjermbildet var tilfeldige — der for å gjøre eksemplet konkret.

Men "tilfeldig" gjør det ikke i samsvar. GDPR Artikkel 4(1) definerer personopplysninger som enhver informasjon som gjelder en identifisert eller identifiserbar fysisk person. En pasientjournal i en publisert artikkel — selv som et skjermbilde — er personopplysninger. Å publisere det uten pasientens samtykke eller et annet lovlig grunnlag under Artikkel 6 er et brudd på GDPR.

Hvorfor Dette Skaper Konkrete Juridiske Risikoer

Forskningsinstitusjoner møter i økende grad GDPR-håndhevelse for feil ved datapublisering. Nøkkelutviklinger:

Tidsskrifts tilbakekallingsforespørsel: GDPR-retten til sletting (Artikkel 17) strekker seg til publiserte data. Hvis en registrert person oppdager sine personopplysninger i en publisert artikkel, kan de be om sletting — noe som for en tidsskriftartikkel typisk betyr tilbakekalling eller korrigeringsvarsel. Tilbakekalling av tidsskrift er en betydelig profesjonell konsekvens.

Funn fra forskningsetiske komiteer: Forskningsetiske komiteer som vurderer publisert forskning for GDPR-samsvar har begynt å utstede funn for artikler som inkluderer individuelle data i skjermbilder uten passende sikkerhetstiltak. Disse funnene påvirker forskernes stilling hos etiske komiteer for fremtidig forskning.

Brudd på datatilgangsavtaler: De fleste forskningsdatasett deles under datatilgangsavtaler som spesifiserer hvordan data kan brukes og hva som kan publiseres. Å inkludere individuelle data i publiserte skjermbilder, selv som miniatyrbilder, kan bryte DAA — med konsekvenser som tap av datatilgangsprivilegier.

Begrensninger i GDPR Artikkel 89 forskningsunntak: GDPR Artikkel 89 tillater behandling av personopplysninger for vitenskapelig forskning med reduserte forpliktelser — men bare der "passende sikkerhetstiltak" er implementert. Å publisere individuelle data i metodologiske skjermbilder uten anonymisering er ikke et passende sikkerhetstiltak; det er en avsløring.

Omfanget av Problemet

Forekomsten er ikke sjelden. En systematisk gjennomgang av datavitenskapelige artikler publisert i tidsskrifter med høy innvirkning mellom 2022-2024 vil sannsynligvis finne en betydelig andel som inneholder bilder med individuelle data synlige.

De medvirkende faktorene:

Reproduserbarhetsnormer: Moderne vitenskapelig publisering krever i økende grad at metoder dokumenteres med tilstrekkelig detalj for å reprodusere resultater. Skjermbilder av analyse-miljøer blir sett på som å oppfylle denne normen.

Publiseringshastighet: Under tidsfrister genererer forskere skjermbilder raskt uten å gjennomgå hvert bilde for datainnhold.

Lav synlighet av data i bilder: Et skjermbilde av en DataFrame med 20 kolonner og 5 rader kan ha navn og ID-er i perifere kolonner som forskeren ikke fokuserer på når de dokumenterer analyseprosedyren.

Ingen automatisert sjekk i innsending arbeidsflyter: Standard tidsskriftinnsendingportaler utfører fullstendighetskontroller, formatkontroller og plagiatkontroller. Ingen utfører bilde PII-detektering.

Implementering av Screening for Forskningsgrupper

En praktisk arbeidsflyt for en forskningsgruppe som implementerer manus PII-screening:

Pre-innsending protokoll:

  1. Forskeren fullfører manusutkast med alle figurer
  2. Utkastet sendes til intern screening (PI eller utpekt vurderer)
  3. Bilde PII-detektering kjøres på alle bildefiler knyttet til manus
  4. Deteksjonsrapport identifiserer: hvilke bilder som inneholder lesbar tekst, hvilken tekst som samsvarer med PII-enhetsmønstre
  5. Forskeren gjennomgår flaggede bilder
  6. For hvert flagget bilde: erstatt med riktig anonymisert skjermbilde (erstatte pasient-ID 12847 med ID 00001, erstatte ekte navn med "Pasient A")
  7. Endelig manus sendes til tidsskriftet med anonymiserte skjermbilder

Tekniske integrasjonsalternativer:

  • Manuell: eksporter alle manusbilder, kjør batch bilde PII-detektering, gjennomgå rapport
  • Semi-automatisert: dedikert mappe der utkast til manus lagres; ukentlig batchbehandling kjører på nye filer
  • Arbeidsflyt-integrert: institusjonell innsending portal med pre-innsending screening trinn

Tidskostnaden for screening er lav: for et typisk manus med 15 figurer tar bilde PII-detektering under 2 minutter. Tidskostnaden for en tilbakekalling eller etisk komite-funn måles i måneder.

Brukstilfelle: Krav til Forskningsetikk ved Europeisk Universitet

En datavitenskapelig forskningsgruppe ved et europeisk universitet implementerte bilde PII-screening som en del av sin manusinnsending arbeidsflyt etter en nær-miss: en innsendt artikkels vurdering oppdaget individuelle pasientnavn i et DataFrame-skjermbilde som hadde blitt inkludert som en metodologisk illustrasjon.

Implementering:

  • Alle utkast til artikler behandlet for bilde PII før innsending til tidsskrifter
  • Screening dekker alle PNG, JPG, og PDF-figurer i utkastet
  • Resultater gjennomgått av gruppens utpekte databeskyttelseskontakt

Resultater over 6 måneder:

  • 23 manuskripter screenet før innsending
  • 7 manuskripter (30%) hadde minst ett bilde med påvisbare PII-enheter
  • Enhetstyper funnet: pasientnavn i DataFrames (4 artikler), bruker-ID-er som samsvarer med pasientregistreringsformater (2 artikler), e-postadresser i skjermbildekanter (1 artikkel)
  • Alle 7 korrigert før innsending
  • Null etter-innsending tilbakekallingsforespørsel eller etiske funn i perioden

Institusjonens forskningsetiske komité bruker nå denne arbeidsflyten som et dokumentert eksempel på "passende sikkerhetstiltak" i søknader om unntak for forskningsformål i GDPR Artikkel 89.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.