Tilbage til BlogGDPR & Overholdelse

Forskning Publikation PII: Hvorfor Dine Dataanalyse Screenshots Måske Overtræder GDPR Uden Du Ved Det

Akademiske artikler inkluderer regelmæssigt pandas DataFrames og R output, der viser rigtige patientjournaler som metodologieksempler. Her er hvorfor dette er en GDPR-overtrædelse, og hvordan man screener manuskripter før indsendelse.

March 7, 20267 min læsning
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Problemet med Metodologi Screenshots

Akademiske og forskningspublikationer har udviklet et dokumentationsmønster, der skaber en undervurderet GDPR-risiko: screenshots af dataanalysemiljøer, der viser rigtige data som en del af at demonstrere metodologi.

Scenarierne er almindelige:

  • Et maskinlæringspapir inkluderer et screenshot af en pandas DataFrame, der viser de første 10 rækker af træningsdatasættet — som indeholder rigtige patientjournaler fra datakilden
  • Et klinisk dataanalysepapir viser R output med individuelle patientværdier i en opsummeringstabel, hvor patient-ID'er er delvist synlige
  • Et papir inden for beregningsmæssig samfundsvidenskab inkluderer SPSS output-tabeller, der viser individuelle svarværdier fra undersøgelser som en del af at forklare analyseproceduren
  • En data engineering tutorial offentliggjort i et forskningsjournal inkluderer Jupyter notebook screenshots med rigtige brugeroptegnelser brugt som "prøvedata" til illustrationen

I hvert tilfælde havde forfatteren ikke til hensigt at offentliggøre persondata. Screenshot'et blev inkluderet for at dokumentere metodologi. De personlige data i screenshot'et var tilfældige — der for at gøre eksemplet konkret.

Men "tilfældig" gør det ikke i overensstemmelse med loven. GDPR Artikel 4(1) definerer persondata som enhver information, der vedrører en identificeret eller identificerbar fysisk person. En patientjournal i en offentliggjort artikel — selv som et screenshot — er persondata. At offentliggøre det uden patientens samtykke eller en anden lovlig basis under Artikel 6 er en GDPR-overtrædelse.

Hvorfor Dette Skaber Konkrete Juridiske Risici

Forskningsinstitutioner står i stigende grad over for GDPR-håndhævelse for fejl i dataoffentliggørelse. Nøgleudviklinger:

Anmodninger om tilbagetrækning af tidsskrifter: GDPR-retten til sletning (Artikel 17) gælder for offentliggjorte data. Hvis en registreret person opdager deres persondata i en offentliggjort artikel, kan de anmode om sletning — hvilket for en tidsskriftartikel typisk betyder tilbagetrækning eller korrektion. Tilbagetrækning af tidsskrifter er en betydelig professionel konsekvens.

Forskningsetiske udvalg fund: Forskningsetiske komiteer, der gennemgår offentliggjort forskning for GDPR-overholdelse, er begyndt at udstede fund for artikler, der inkluderer individuelle data i screenshots uden passende sikkerhedsforanstaltninger. Disse fund påvirker forskeres status hos etiske udvalg for fremtidig forskning.

Overtrædelser af Dataadgangsaftaler: De fleste forskningsdatasæt deles under Dataadgangsaftaler, der specificerer, hvordan data må bruges, og hvad der må offentliggøres. At inkludere individuelle data i offentliggørelsesscreenshots, selv som miniaturebilleder, kan overtræde DAA — med konsekvenser, der inkluderer tab af dataadgangsprivilegier.

Begrænsninger for GDPR Artikel 89 forskningsfritagelser: GDPR Artikel 89 tillader behandling af persondata til videnskabelig forskning med reducerede forpligtelser — men kun hvor "passende sikkerhedsforanstaltninger" er implementeret. At offentliggøre individuelle data i metodologiske screenshots uden anonymisering er ikke en passende sikkerhedsforanstaltning; det er en offentliggørelse.

Omfanget af Problemet

Forekomsten er ikke sjælden. En systematisk gennemgang af datavidenskabsartikler offentliggjort i højt profilerede tidsskrifter mellem 2022-2024 ville sandsynligvis finde en betydelig andel, der indeholder billeder med synlige individuelle data.

De bidragende faktorer:

Reproducerbarhedsnormer: Moderne videnskabelig offentliggørelse kræver i stigende grad, at metoder dokumenteres med tilstrækkelig detaljer for at reproducere resultater. Screenshots af analysemiljøer ses som opfyldelse af denne norm.

Hastighed af offentliggørelse: Under tidsfrister genererer forskere hurtigt screenshots uden at gennemgå hvert billede for datainhold.

Lav synlighed af data i billeder: Et screenshot af en DataFrame med 20 kolonner og 5 rækker kan have navne og ID'er i perifere kolonner, som forskeren ikke fokuserer på, når de dokumenterer analyseproceduren.

Ingen automatiseret kontrol i indsendelsesarbejdsgange: Standard tidsskriftsindsendelsesportaler udfører kontrol af fuldstændighed, formatkontrol og plagiatkontrol. Ingen udfører PII-detektion i billeder.

Screening Implementering for Forskningsgrupper

En praktisk arbejdsgang for en forskningsgruppe, der implementerer manuskript PII screening:

Pre-indsendelsesprotokol:

  1. Forsker afslutter manuskriptudkast med alle figurer
  2. Udkast indsendes til intern screening (PI eller udpeget anmelder)
  3. Billede PII-detektion kører på alle billedfiler knyttet til manuskriptet
  4. Detektionsrapport identificerer: hvilke billeder der indeholder læselig tekst, hvilken tekst der matcher PII-enhedsmønstre
  5. Forsker gennemgår markerede billeder
  6. For hvert markeret billede: erstat med korrekt anonymiseret screenshot (erstat patient-ID 12847 med ID 00001, erstat rigtigt navn med "Patient A")
  7. Det endelige manuskript indsendes til tidsskriftet med anonymiserede screenshots

Tekniske integrationsmuligheder:

  • Manuel: eksportér alle manuskriptbilleder, kør batch billede PII-detektion, gennemgå rapport
  • Semi-automatiseret: dedikeret mappe, hvor udkast manuskripter deponeres; ugentlig batchbehandling kører på nye filer
  • Workflow-integreret: institutionel indsendelsesportal med pre-indsendelses screeningstrin

Tidsomkostningen ved screening er lav: for et typisk manuskript med 15 figurer tager billede PII-detektion under 2 minutter. Tidsomkostningen ved en tilbagetrækning eller et etisk udvalg fund måles i måneder.

Brugssag: Europæisk Universitets Forskningsetiske Krav

En datavidenskabsforskningsgruppe ved et europæisk universitet implementerede billede PII screening som en del af deres manuskriptindsendelsesarbejdsgang efter en nær-miss: en indsendt artikels gennemgang opdagede individuelle patientnavne i et DataFrame screenshot, der var blevet inkluderet som en metodologisk illustration.

Implementering:

  • Alle udkastpapirer behandlet for billede PII før indsendelse til tidsskrifter
  • Screeningen dækker alle PNG, JPG og PDF figurer i udkastet
  • Resultater gennemgået af gruppens udpegede databeskyttelseskontakt

Resultater over 6 måneder:

  • 23 manuskripter screenet før indsendelse
  • 7 manuskripter (30%) havde mindst ét billede med detekterbare PII-enheder
  • Enhedstyper fundet: patientnavne i DataFrames (4 artikler), bruger-ID'er der matcher patientregistreringsformater (2 artikler), e-mailadresser i screenshot-marginer (1 artikel)
  • Alle 7 blev korrigeret før indsendelse
  • Ingen anmodninger om tilbagetrækning eller etiske fund efter indsendelse i perioden

Institutionens forskningsetiske udvalg bruger nu denne arbejdsgang som et dokumenteret eksempel på "passende sikkerhedsforanstaltninger" i ansøgninger om GDPR Artikel 89 forskningsfritagelser.

Kilder:

Klar til at beskytte dine data?

Begynd at anonymisere PII med 285+ enhedstyper på tværs af 48 sprog.