anonym.legal
Takaisin BlogiinGDPR & Vaatimustenmukaisuus

Tutkimusjulkaisu PII: Miksi tietoanalyysisi näyttökuvat saattavat rikkoa GDPR:ää ilman, että tiedät sitä

Akateemiset paperit sisältävät säännöllisesti pandas DataFrameja ja R:n tulosteita, jotka näyttävät oikeita potilastietoja metodologian esimerkkeinä. Tässä on syyt, miksi tämä on GDPR-rikkomus ja miten käsikirjoituksia voidaan tarkistaa ennen lähettämistä.

March 7, 20267 min lukuaika
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Metodologian näyttökuvaongelma

Akateemiset ja tutkimusjulkaisut ovat kehittäneet dokumentointimallin, joka luo aliarvostettua GDPR-riskiä: näyttökuvat tietoanalyysiympäristöistä, jotka näyttävät oikeita tietoja osana metodologian esittämistä.

Tilanteet ovat yleisiä:

  • Koneoppimispaperi sisältää näyttökuvan pandas DataFrameista, joka näyttää ensimmäiset 10 riviä koulutusdatasta — joka sisältää oikeita potilastietoja tietolähteestä
  • Kliininen tietoanalyysipaperi näyttää R:n tulosteen, jossa on yksittäisten potilaiden arvot yhteenvedossa, potilas-ID:t osittain näkyvissä
  • Laskennallisen sosiaalitieteen paperi sisältää SPSS-tulostetaulukkoja, jotka näyttävät yksittäisten kyselyvastaajien arvot osana analyysimenettelyn selittämistä
  • Tietotekniikan opas, joka on julkaistu tutkimuslehdessä, sisältää Jupyter-notebookin näyttökuvia, joissa on oikeita käyttäjätietoja käytetty "esimerkkitietona" havainnollistamiseksi

Jokaisessa tapauksessa kirjoittaja ei aikonut julkaista henkilötietoja. Näyttökuva sisällytettiin metodologian dokumentoimiseksi. Näyttökuvassa olevat henkilötiedot olivat satunnaisia — siellä esimerkin konkretisoimiseksi.

Mutta "satunnainen" ei tee siitä vaatimustenmukaista. GDPR:n artikla 4(1) määrittelee henkilötiedot kaikiksi tiedoiksi, jotka liittyvät tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön. Potilasrekisteri julkaistussa paperissa — jopa näyttökuvana — on henkilötieto. Sen julkaiseminen ilman potilaan suostumusta tai muuta laillista perustetta artiklan 6 mukaan on GDPR-rikkomus.

Miksi tämä luo konkreettista oikeudellista riskiä

Tutkimuslaitokset kohtaavat yhä enemmän GDPR:n täytäntöönpanoa tietojulkaisujen epäonnistumisten vuoksi. Keskeiset kehitykset:

Lehtien peruutuspyynnöt: GDPR:n oikeus tulla unohdetuksi (artikla 17) ulottuu julkaistuihin tietoihin. Jos tietosubjekti löytää henkilötietonsa julkaistusta paperista, he voivat pyytää tietojen poistamista — mikä tarkoittaa lehtiartikkelille tyypillisesti peruutusta tai korjausilmoitusta. Lehtien peruutus on merkittävä ammatillinen seuraus.

Tutkimuseettisten toimikuntien päätökset: Tutkimuseettiset komiteat, jotka tarkistavat julkaistuja tutkimuksia GDPR:n vaatimustenmukaisuuden osalta, ovat alkaneet antaa päätöksiä papereista, jotka sisältävät yksilötason tietoja näyttökuvissa ilman asianmukaisia suojaustoimia. Nämä päätökset vaikuttavat tutkijoiden asemaan eettisissä toimikunnissa tulevissa tutkimuksissa.

Tietojen käyttöoikeussopimusten rikkomukset: Suurin osa tutkimusdatan joukkoista jaetaan tietojen käyttöoikeussopimusten (Data Access Agreements) mukaan, jotka määrittelevät, miten tietoja voidaan käyttää ja mitä voidaan julkaista. Yksilötason tietojen sisällyttäminen julkaistuihin näyttökuviin, jopa pienoiskuvina, voi rikkoa DAA:ta — seurauksina voi olla tietojen käyttöoikeuksien menettäminen.

GDPR:n artikla 89 tutkimuspoikkeuksen rajoitukset: GDPR:n artikla 89 sallii henkilötietojen käsittelyn tieteellisessä tutkimuksessa vähennetyillä velvoitteilla — mutta vain, kun "asianmukaisia suojaustoimia" on toteutettu. Yksilötason tietojen julkaiseminen metodologian näyttökuvissa ilman anonymisointia ei ole asianmukainen suoja; se on paljastus.

Ongelman laajuus

Ilmiö ei ole harvinainen. Systemaattinen tarkastelu datatieteen papereista, jotka on julkaistu korkeasti vaikuttavissa lehdissä vuosina 2022-2024, löytäisi todennäköisesti merkittävän osan, joka sisältää kuvia, joissa yksilötason tiedot ovat näkyvissä.

Osatekijät:

Toistettavuuden normit: Moderni tieteellinen julkaiseminen vaatii yhä enemmän, että menetelmät dokumentoidaan riittävällä yksityiskohtaisuudella tulosten toistettavuuden varmistamiseksi. Näyttökuvat analyysiympäristöistä nähdään tämän normin täyttämisenä.

Julkaisunopeus: Aikapaineen alla tutkijat tuottavat näyttökuvia nopeasti tarkistamatta kutakin kuvaa tietosisällön osalta.

Tietojen alhainen näkyvyys kuvissa: Näyttökuva DataFrameista, jossa on 20 saraketta ja 5 riviä, saattaa sisältää nimiä ja ID:itä periferaalisissa sarakkeissa, joihin tutkija ei keskity analyysimenettelyn dokumentoinnissa.

Ei automaattista tarkistusta lähetysprosesseissa: Standardit lehtien lähetysportaalit suorittavat täydellisyystarkistuksia, muotoilutarkistuksia ja plagioinnin seulontaa. Kukaan ei suorita kuvien PII-tunnistusta.

Seulontatoteutus tutkimusryhmille

Käytännön työnkulku tutkimusryhmälle, joka toteuttaa käsikirjoitusten PII-seulontaa:

Esilähetysprotokolla:

  1. Tutkija viimeistelee käsikirjoitusluonnoksen kaikilla kuvilla
  2. Luonnos lähetetään sisäiseen seulontaan (PI tai nimetty arvioija)
  3. Kuvien PII-tunnistus suoritetaan kaikille käsikirjoitukseen liitetyille kuvafailille
  4. Tunnistusraportti tunnistaa: mitkä kuvat sisältävät luettavaa tekstiä, mikä teksti vastaa PII-entiteettimalleja
  5. Tutkija tarkistaa merkittyjä kuvia
  6. Jokaiselle merkitylle kuvalle: vaihda asianmukaisesti anonymisoituun näyttökuvaan (korvaa potilas-ID 12847 ID:llä 00001, vaihda oikea nimi "Potilas A")
  7. Lopullinen käsikirjoitus lähetetään lehteen anonymisoiduilla näyttökuvilla

Teknisen integroinnin vaihtoehdot:

  • Manuaalinen: vie kaikki käsikirjoituskuvat, suorita eräkuvien PII-tunnistus, tarkista raportti
  • Puoli-automaattinen: omistettu kansio, johon luonnokset talletetaan; viikoittainen eräprosessi uusille tiedostoille
  • Työnkulkuun integroitu: institutionaalinen lähetysportaalin esiseulontavaihe

Seulonnan aikakustannus on alhainen: tyypillisen 15-kuvauksen käsikirjoituksen kuvien PII-tunnistus vie alle 2 minuuttia. Peruutuksen tai eettisen toimikunnan päätöksen aikakustannus mitataan kuukausissa.

Käyttötapaus: Euroopan yliopiston tutkimuseettinen vaatimus

Tietotieteen tutkimusryhmä Euroopan yliopistossa toteutti kuvien PII-seulonnan osana käsikirjoitusten lähetysprosessia läheltä ohitettuaan: tarkastuksessa havaittiin yksittäisten potilaiden nimiä DataFrame-näyttökuvassa, joka oli sisällytetty metodologian havainnollistamiseksi.

Toteutus:

  • Kaikki luonnospaperit käsitellään kuvien PII-seulonnassa ennen lähettämistä lehtiin
  • Seulonta kattaa kaikki PNG-, JPG- ja PDF-kuvat luonnoksessa
  • Tulokset tarkistetaan ryhmän nimetyltä tietosuojavastaavalta

Tulokset 6 kuukauden aikana:

  • 23 käsikirjoitusta seulottu ennen lähettämistä
  • 7 käsikirjoitusta (30%) sisälsi vähintään yhden kuvan, jossa oli havaittavia PII-entiteettejä
  • Löydetyt entiteettityypit: potilasnimet DataFrameissa (4 paperia), käyttäjä-ID:t, jotka vastaavat potilasrekisterimuotoja (2 paperia), sähköpostiosoitteet näyttökuvien reunoilla (1 paperi)
  • Kaikki 7 korjattiin ennen lähettämistä
  • Nolla jälkikäteen tapahtuneita peruutuspyyntöjä tai eettisiä päätöksiä tarkastelujakson aikana

Laitoksen tutkimuseettinen komitea käyttää nyt tätä työnkulkua dokumentoituna esimerkkinä "asianmukaisista suojaustoimista" GDPR:n artikla 89 tutkimuspoikkeuspyynnöissä.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.