Tilbake til BloggGDPR & Overholdelse

Forskning Publikasjon PII: Hvorfor Dine...

Akademiske artikler inkluderer regelmessig pandas DataFrames og R-utdata som viser ekte pasientjournaler som metodologieksempler.

April 21, 20267 min lesing
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Problemet med Metodologi-skjermbilder

Akademiske og forskningspublikasjoner har utviklet et dokumentasjonsmønster som skaper en undervurdert GDPR-risiko: skjermbilder av dataanalyse-miljøer som viser ekte data som en del av å demonstrere metodologi.

Scenarioene er vanlige:

  • En maskinlæringsartikkel inkluderer et skjermbilde av en pandas DataFrame som viser de første 10 radene av treningsdatasettet — som inneholder ekte pasientjournaler fra datakilden
  • En klinisk dataanalyse-artikkel viser R-utdata med individuelle pasientverdier i en oppsummeringstabell, med pasient-ID-er delvis synlige
  • En artikkel innen beregningsmessig samfunnsvitenskap inkluderer SPSS-utdata-tabeller som viser individuelle verdier fra spørreundersøkelser som en del av å forklare analyseprosedyren
  • En dataengineering-veiledning publisert i et forskningsjournal inkluderer Jupyter-notatbok-skjermbilder med ekte brukerdata brukt som "eksempeldata" for illustrasjonen

I hvert tilfelle hadde forfatteren ikke til hensikt å publisere personopplysninger. Skjermbildet ble inkludert for å dokumentere metodologi. De personlige dataene i skjermbildet var tilfeldige — der for å gjøre eksemplet konkret.

Men "tilfeldig" gjør det ikke i samsvar. GDPR Artikkel 4(1) definerer personopplysninger som enhver informasjon som gjelder en identifisert eller identifiserbar fysisk person. En pasientjournal i en publisert artikkel — selv som et skjermbilde — er personopplysninger. Å publisere det uten pasientens samtykke eller et annet lovlig grunnlag under Artikkel 6 er et brudd på GDPR.

Hvorfor Dette Skaper Konkrete Juridiske Risikoer

Forskningsinstitusjoner møter i økende grad GDPR-håndhevelse for feil ved datapublisering. Nøkkelutviklinger:

Tidsskrifts tilbakekallingsforespørsel: GDPR-retten til sletting (Artikkel 17) strekker seg til publiserte data. Hvis en registrert person oppdager sine personopplysninger i en publisert artikkel, kan de be om sletting — noe som for en tidsskriftartikkel typisk betyr tilbakekalling eller korrigeringsvarsel. Tilbakekalling av tidsskrift er en betydelig profesjonell konsekvens.

Funn fra forskningsetiske komiteer: Forskningsetiske komiteer som vurderer publisert forskning for GDPR-samsvar har begynt å utstede funn for artikler som inkluderer individuelle data i skjermbilder uten passende sikkerhetstiltak. Disse funnene påvirker forskernes stilling hos etiske komiteer for fremtidig forskning.

Brudd på datatilgangsavtaler: De fleste forskningsdatasett deles under datatilgangsavtaler som spesifiserer hvordan data kan brukes og hva som kan publiseres. Å inkludere individuelle data i publiserte skjermbilder, selv som miniatyrbilder, kan bryte DAA — med konsekvenser som tap av datatilgangsprivilegier.

Begrensninger i GDPR Artikkel 89 forskningsunntak: GDPR Artikkel 89 tillater behandling av personopplysninger for vitenskapelig forskning med reduserte forpliktelser — men bare der "passende sikkerhetstiltak" er implementert. Å publisere individuelle data i metodologiske skjermbilder uten anonymisering er ikke et passende sikkerhetstiltak; det er en avsløring.

Omfanget av Problemet

Forekomsten er ikke sjelden. En systematisk gjennomgang av datavitenskapelige artikler publisert i tidsskrifter med høy innvirkning mellom 2022-2024 vil sannsynligvis finne en betydelig andel som inneholder bilder med individuelle data synlige.

De medvirkende faktorene:

Reproduserbarhetsnormer: Moderne vitenskapelig publisering krever i økende grad at metoder dokumenteres med tilstrekkelig detalj for å reprodusere resultater. Skjermbilder av analyse-miljøer blir sett på som å oppfylle denne normen.

Publiseringshastighet: Under tidsfrister genererer forskere skjermbilder raskt uten å gjennomgå hvert bilde for datainnhold.

Lav synlighet av data i bilder: Et skjermbilde av en DataFrame med 20 kolonner og 5 rader kan ha navn og ID-er i perifere kolonner som forskeren ikke fokuserer på når de dokumenterer analyseprosedyren.

Ingen automatisert sjekk i innsending arbeidsflyter: Standard tidsskriftinnsendingportaler utfører fullstendighetskontroller, formatkontroller og plagiatkontroller. Ingen utfører bilde PII-detektering.

Implementering av Screening for Forskningsgrupper

En praktisk arbeidsflyt for en forskningsgruppe som implementerer manus PII-screening:

Pre-innsending protokoll:

  1. Forskeren fullfører manusutkast med alle figurer
  2. Utkastet sendes til intern screening (PI eller utpekt vurderer)
  3. Bilde PII-detektering kjøres på alle bildefiler knyttet til manus
  4. Deteksjonsrapport identifiserer: hvilke bilder som inneholder lesbar tekst, hvilken tekst som samsvarer med PII-enhetsmønstre
  5. Forskeren gjennomgår flaggede bilder
  6. For hvert flagget bilde: erstatt med riktig anonymisert skjermbilde (erstatte pasient-ID 12847 med ID 00001, erstatte ekte navn med "Pasient A")
  7. Endelig manus sendes til tidsskriftet med anonymiserte skjermbilder

Tekniske integrasjonsalternativer:

  • Manuell: eksporter alle manusbilder, kjør batch bilde PII-detektering, gjennomgå rapport
  • Semi-automatisert: dedikert mappe der utkast til manus lagres; ukentlig batchbehandling kjører på nye filer
  • Arbeidsflyt-integrert: institusjonell innsending portal med pre-innsending screening trinn

Tidskostnaden for screening er lav: for et typisk manus med 15 figurer tar bilde PII-detektering under 2 minutter. Tidskostnaden for en tilbakekalling eller etisk komite-funn måles i måneder.

Brukstilfelle: Krav til Forskningsetikk ved Europeisk Universitet

En datavitenskapelig forskningsgruppe ved et europeisk universitet implementerte bilde PII-screening som en del av sin manusinnsending arbeidsflyt etter en nær-miss: en innsendt artikkels vurdering oppdaget individuelle pasientnavn i et DataFrame-skjermbilde som hadde blitt inkludert som en metodologisk illustrasjon.

Implementering:

  • Alle utkast til artikler behandlet for bilde PII før innsending til tidsskrifter
  • Screening dekker alle PNG, JPG, og PDF-figurer i utkastet
  • Resultater gjennomgått av gruppens utpekte databeskyttelseskontakt

Resultater over 6 måneder:

  • 23 manuskripter screenet før innsending
  • 7 manuskripter (30%) hadde minst ett bilde med påvisbare PII-enheter
  • Enhetstyper funnet: pasientnavn i DataFrames (4 artikler), bruker-ID-er som samsvarer med pasientregistreringsformater (2 artikler), e-postadresser i skjermbildekanter (1 artikkel)
  • Alle 7 korrigert før innsending
  • Null etter-innsending tilbakekallingsforespørsel eller etiske funn i perioden

Institusjonens forskningsetiske komité bruker nå denne arbeidsflyten som et dokumentert eksempel på "passende sikkerhetstiltak" i søknader om unntak for forskningsformål i GDPR Artikkel 89.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.