Tagasi BlogisseGDPR ja Vastavus

Uuringute Publitseerimise PII: Miks Teie...

Akadeemilised artiklid sisaldavad regulaarselt pandas DataFrames'e ja R-i väljundit, mis näitavad päris patsiendi kirjeid metodoloogia näidetena.

April 21, 20267 min lugemist
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Metodoloogia Kuvatõmmiste Probleem

Akadeemilised ja uuringuteaduse publikatsioonid on välja arendanud dokumenteerimismustri, mis tekitab alahinnatud GDPR-riskid: andmeanalüüsi keskkonna kuvatõmmised, mis näitavad päris andmeid metodoloogia demonstreerimisena.

Stsenaariumid on tavalised:

  • Masinõppe artiklis sisaldub pandas DataFrames'e kuvatõmmis, mis näitab andmekogumi esimesi 10 rida - mis sisaldavad päri patsienti kirjeid andmeallikast
  • Kliiniliste andmete analüüsi artiklis näidatakse R-i väljundit individuaalse patsiendi väärtustega kokkuvõtte tabelis, kus patsientide ID-d on osaliselt nähtavad
  • Arvutuslike sotsiaalteaduste artiklis sisalduvad SPSS-i väljundtabelid, mis näitavad individuaalse küsitluse vastaja väärtusi kui analüüsimenetluse seletuse osa
  • Andmete tehisintellekti õpetus, mis on avaldatud uuringute ajakirjas, sisaldab Jupyter märkmiku kuvatõmmiseid, kusjuures analüüside illustration kasutatakse päris kasutajate kirjeid kui "näidisandmeid"

Kõigil juhtudel ei kavandanud autor isikuandmete avaldamist. Kuvatõmmis oli kaasatud metodoloogia dokumenteerimiseks. Kuvatõmmise isikuandmed olid juhuslikud - nende eesmärk oli näide konkreetseks teha.

Kuid "juhuslik" ei muuda seda nõuetekohaseks. GDPR artikli 4(1) järgi on isikuandmed mis tahes teave, mis on seotud tuvastatud või tuvastatava füüsilise isikuga. Avaldatud paberis olev patsientkirje - isegi kuvatõmmisena - on isikuandmed. Avaldamine patsiendi nõusolekuta või muul GDPR artikli 6 alusel õiguspärase peamisuse ilma on GDPR-i rikkumine.

Miks See Tekitab Konkreetset Õigusriskki

Rakendusteaduse asutused seisavad üha enam GDPR-i jõustamist andmete avaldamiste ebaõnnestumiste puhul. Peamised arengud:

Ajakirjade tagasivõtmise taotlused: GDPR-i kustutusoigu artikkel 17 laieneb avaldatud andmetele. Kui andmete subjekt avastab oma isikuandmed avaldatud paberis, saavad nad taotleda kustutatust - mis ajakirja artikli puhul tähendab tavaliselt tagasivõtmist või parandusavaldust. Ajakirja tagasivõtmine on märkimisväärne professionaalne tagajärg.

Uuringute eetika komitee järeldused: Uuringute eetika komiteed, kes üle vaatavad avaldatud uurimistöö GDPR-i nõuetekohasuse, on hakanud välja andma järeldusi paberite kohta, mis sisaldavad individuaalse taseme andmeid kuvatõmmiste kujul ilma asjakohaselt kaitsemeetmeteta. Need järeldused mõjutavad teadlaste seisundit eetika komisjonide jaoks tulevaste uuringute jaoks.

Andmete Juurdepääsuleppe Rikkumised: Enamik uuringute andmekogumeid jaotatakse andmete juurdepääsu lepingute alusel, mis määravad, kuidas andmeid võib kasutada ja mida võib avaldada. Individuaalse taseme andmete kaasamine avaldamise kuvatõmmiste kujul, isegi pisikeste pisikestena, võib DAA-d rikkuda - tagajärgedeks on andmetele juurdepääsu privileegide kaotamine.

GDPR artikli 89 uurimisoiguse piirangud: GDPR artikkel 89 võimaldab isikuandmete töötlemist teadusliku uurimistöö jaoks vähendatud kohustustega - kuid ainult sel juhul, kui rakendatakse "asjakohaseid kaitsemeetmeid". Individuaalse taseme andmete avaldamine metodoloogia kuvatõmmistes anonymiseerimiseta ei ole asjakohane kaitsemeede; see on avalikustamine.

Probleemi Ulatuvus

Esinemisel pole harv. Süstemaatiline uurimine andmeteaduse artikleid, mis avaldati kõrgeid mõjuga ajakirjades aastatel 2022-2024, tõenäoliselt leituks märkimisväärne osakaal, mis sisaldavad individuaalse taseme andmete nähtavusega kujutisi.

Kaasavad tegurid:

Taasesitavuse normid: Kaasaegne teaduslik avaldamine nõuab üha enam, et meetodid oleks dokumenteeritud piisava detailiga tulemuste reprodutseerimiseks. Analüüsi keskkonna kuvatõmmised on näha norme rahuldavate.

Avaldamise kiirus: Tähtaja surve all teevad uurijad kuvatõmmiseid kiiresti, käsitsemata iga pildi andmete sisu.

Madal andmete nähtavus piltides: DataFrames'e kuvatõmmis, millel on 20 veergu ja 5 rida, võib sisaldada nimesid ja ID-sid perifeersetes veergudes, millele uurija ei keskendu dokumendi analüüsi protseduuri dokumenteerimisel.

Automaatne kontroll esitamise töövoogudes puudub: Standardsed ajakirja esitamise portaalid teevad täielikkuse kontrolli, vormingu kontrolli ja plagieerimise skaneerimist. Miski neist ei tee pildi PII-tuvastamist.

Uurimusgruppide Sõelumise Rakendamine

Praktilised töövood uurimusgrupi jaoks käsikirja PII-sõelumise rakendamisel:

Eelse esitamise protokoll:

  1. Uurija lõpetab käsikirja mustandiga kõigi joonistega
  2. Mustand saadetakse sisemisele sõelumisele (PI või määratud hindaja)
  3. Pildi PII-tuvastamine käib kõigil käsikirja faili juurde lisatud piltidel
  4. Tuvastuse aruanne märgib: millised pildid sisaldavad loetavat teksti, milline tekst sobib PII-olemite mustritega
  5. Uurija vaatab märgitud pildid üle
  6. Iga märgitud pildi kohta: asendada õigesti anonüümseeritud kuvatõmmisega (asendada patsientID 12847 ID-ga 00001, asendada päris nimi "Patsient A"-ga)
  7. Finaalse käsikirja esitamine ajakirjale anonüümseeritud kuvatõmmistega

Tehniline integreerimine valikud:

  • Käsitsi: viige kõik käsikirja pildid välja, käitada köitega pildi PII-tuvastamist, vaadake üle aruanne
  • Pooleautomaatne: eraldatud kaust, kuhu mustand käsikirjad paigutatakse; iganädalane köitega töötlus käib uute failide peal
  • Töövoo integreerimine: institutsioonilised esitamise portaalid eelse esitamise sõelumise astmega

Sõelumise ajamaksumus on madal: tüüpilisele 15-joonisele käsikirjale võtab pildi PII-tuvastamine vähem kui 2 minutit. Tagasivõtmise või eetika komitee järelduse ajamaksumus mõõdetakse kuudes.

Kasutusjuht: Euroopa Ülikooli Uurimuse Eetika Nõue

Andmeteaduse uurimusgrupp Euroopa ülikoolis rakendas pildi PII-sõelumist käsikirja esitamise töövoo osana pärast lähisurmat: esitatud paberit üle vaadanud rühm avastus individuaalse patsiendi nimed DataFrame'i kuvatõmmises, mis oli kaasatud metodoloogia illustratsioonina.

Rakendamine:

  • Kõik mustand dokumendid töödeldakse pildi PII tuvastamiseks enne esitamist ajakirjadele
  • Sõelumiskatvus hõlmab kõiki PNG, JPG ja PDF jooniseid mustandis
  • Tulemusi vaataakse üle grupi määratud andmete privaatsuse kontakti poolt

Tulemused 6 kuus:

  • 23 käsikirja seuluti enne esitamist
  • 7 käsikirja (30%) sisaldas vähemalt ühte pilti tuvastatavate PII-olemitega
  • Leitud olemitüübid: patsiendi nimed DataFrames'es (4 paberit), kasutaja ID-d, mis vastavad patsientide registreerimisformaatidele (2 paberit), meiliaadresmärgid kuvatõmmiste servadel (1 paber)
  • Kõik 7 parandati enne esitamist
  • Null järelvalve tagasivõtmise taotlused ega eetika komitee järeldused perioodi jooksul

Asutuse uurimuseetika komitee kasutab nüüd seda töövood dokumenteeritud näitena "asjakohasttest kaitsemeetmetest" GDPR artikli 89 uurimisoiguse taotlustes.

Allikad:

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.