Tillbaka till BloggenGDPR & Efterlevnad

Forskning Publikation PII: Varför Ditt Dataanalys Skärmdumpar Kan Bryta Mot GDPR Utan Att Du Vet Om Det

Akademiska artiklar inkluderar regelbundet pandas DataFrames och R-utdata som visar riktiga patientjournaler som metodologiexempel. Här är varför detta är ett GDPR-brott och hur man granskar manus innan inlämning.

March 7, 20267 min läsning
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Problemet med Metodologisk Skärmdump

Akademiska och forskningspublikationer har utvecklat ett dokumentationsmönster som skapar en undervärderad GDPR-risk: skärmdumpar av dataanalysmiljöer som visar verkliga data som en del av att demonstrera metodologi.

Scenarierna är vanliga:

  • En maskininlärningsartikel inkluderar en skärmdump av en pandas DataFrame som visar de första 10 raderna av träningsdatasetet — som innehåller riktiga patientjournaler från datakällan
  • En klinisk dataanalysartikel visar R-utdata med individuella patientvärden i en sammanfattningstabell, med patient-ID delvis synliga
  • En artikel inom beräkningssocialvetenskap inkluderar SPSS-utdata tabeller som visar individuella värden från enkätsvarande som en del av att förklara analysproceduren
  • En datateknikhandledning publicerad i en forskningsjournal inkluderar Jupyter-notebook skärmdumpar med riktiga användaruppgifter som används som "exempeldata" för illustrationen

I varje fall avsåg författaren inte att publicera personuppgifter. Skärmdumpen inkluderades för att dokumentera metodologin. De personuppgifter som finns i skärmdumpen var tillfälliga — där för att göra exemplet konkret.

Men "tillfällig" gör det inte förenligt. GDPR Artikel 4(1) definierar personuppgifter som all information som rör en identifierad eller identifierbar fysisk person. En patientjournal i en publicerad artikel — även som en skärmdump — är personuppgifter. Att publicera den utan patientens samtycke eller en annan laglig grund enligt Artikel 6 är ett GDPR-brott.

Varför Detta Skapar Konkret Juridisk Risk

Forskningsinstitutioner står alltmer inför GDPR-verkställighet för misslyckanden med datpublicering. Nyckelutvecklingar:

Begärningar om återkallelse av tidskrifter: GDPR:s rätt till radering (Artikel 17) sträcker sig till publicerade data. Om en registrerad person upptäcker sina personuppgifter i en publicerad artikel kan de begära radering — vilket för en tidskriftsartikel typiskt innebär återkallelse eller rättelse. Återkallelse av tidskrift är en betydande professionell konsekvens.

Fynd från forskningsetiska nämnder: Forskningsetiska kommittéer som granskar publicerad forskning för GDPR-efterlevnad har börjat utfärda fynd för artiklar som inkluderar individuella data i skärmdumpar utan lämpliga skyddsåtgärder. Dessa fynd påverkar forskarnas ställning hos etiska nämnder för framtida forskning.

Överträdelser av Data Access Agreement: De flesta forskningsdataset delas under Data Access Agreements som specificerar hur data får användas och vad som får publiceras. Att inkludera individuella data i publiceringsskärmdumpar, även som miniatyrer, kan bryta mot DAA — med konsekvenser som förlust av datatillgång.

Begränsningar av GDPR Artikel 89 forskningsundantag: GDPR Artikel 89 tillåter behandling av personuppgifter för vetenskaplig forskning med minskade skyldigheter — men endast där "lämpliga skyddsåtgärder" genomförs. Att publicera individuella data i metodologiska skärmdumpar utan anonymisering är inte en lämplig skyddsåtgärd; det är en avslöjande.

Problemet i Storskaligt

Förekomsten är inte sällsynt. En systematisk översyn av datavetenskapliga artiklar publicerade i högpåverkande tidskrifter mellan 2022-2024 skulle sannolikt hitta en betydande andel som innehåller bilder med individuella data synliga.

De bidragande faktorerna:

Reproducerbarhetsnormer: Modern vetenskaplig publicering kräver alltmer att metoder dokumenteras med tillräcklig detalj för att reproducera resultat. Skärmdumpar av analysmiljöer ses som att uppfylla denna norm.

Publiceringshastighet: Under tidsfristspress genererar forskare skärmdumpar snabbt utan att granska varje bild för datainnehåll.

Låg synlighet av data i bilder: En skärmdump av en DataFrame med 20 kolumner och 5 rader kan ha namn och ID i perifera kolumner som forskaren inte fokuserar på när de dokumenterar analysproceduren.

Ingen automatisk kontroll i inlämningsarbetsflöden: Standard tidskriftsinlämningsportaler utför fullständighetskontroller, formatkontroller och plagiatkontroller. Ingen utför bild PII-detektering.

Screeningimplementering för Forskningsgrupper

Ett praktiskt arbetsflöde för en forskningsgrupp som implementerar manus PII-screening:

Pre-inlämningsprotokoll:

  1. Forskaren slutför manusutkastet med alla figurer
  2. Utkastet skickas till intern screening (PI eller utsedd granskare)
  3. Bild PII-detektering körs på alla bildfiler som bifogats manus
  4. Detektionsrapporten identifierar: vilka bilder som innehåller läsbar text, vilken text som matchar PII-entitetsmönster
  5. Forskaren granskar flaggade bilder
  6. För varje flaggad bild: ersätt med korrekt anonymiserad skärmdump (ersätt patient-ID 12847 med ID 00001, ersätt verkligt namn med "Patient A")
  7. Slutgiltigt manus skickas till tidskrift med anonymiserade skärmdumpar

Tekniska integrationsalternativ:

  • Manuell: exportera alla manusbilder, kör batchbild PII-detektering, granska rapport
  • Semi-automatiserad: dedikerad mapp där utkastmanus lagras; veckovis batchbearbetning körs på nya filer
  • Arbetsflödesintegrerad: institutionell inlämningsportal med pre-inlämningsscreeningsteg

Tidskostnaden för screening är låg: för ett typiskt manus med 15 figurer tar bild PII-detektering under 2 minuter. Tidskostnaden för en återkallelse eller fynd från en etisk nämnd mäts i månader.

Användningsfall: Europisk Universitetsforskningsetisk Krav

En datavetenskaplig forskargrupp vid ett europeiskt universitet implementerade bild PII-screening som en del av sitt manusinlämningsarbetsflöde efter en nära miss: en granskning av ett inlämnat papper upptäckte individuella patientnamn i en DataFrame-skärmdump som hade inkluderats som en metodologisk illustration.

Implementering:

  • Alla utkastpapper bearbetas för bild PII innan de skickas till tidskrifter
  • Screeningen omfattar alla PNG, JPG och PDF-figurer i utkastet
  • Resultaten granskas av gruppens utsedda dataskyddskontakt

Resultat över 6 månader:

  • 23 manus screenades innan inlämning
  • 7 manus (30%) hade minst en bild med upptäckbara PII-entiteter
  • Typ av entiteter som hittades: patientnamn i DataFrames (4 artiklar), användar-ID som matchar patientregistreringsformat (2 artiklar), e-postadresser i skärmdumpens marginaler (1 artikel)
  • Alla 7 korrigerades innan inlämning
  • Noll efter-inlämningsåterkallelseförfrågningar eller etiska fynd under perioden

Institutionens forskningsetiska kommitté använder nu detta arbetsflöde som ett dokumenterat exempel på "lämpliga skyddsåtgärder" i ansökningar om GDPR Artikel 89 forskningsundantag.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.