Rakenteellinen vs. Vapaateksti PII -ongelma
Tutkimusdatan jakaminen akateemisten instituutioiden välillä tapahtuu yleisimmin CSV-muodossa. Kun tutkijat valmistavat CSV-tiedostoja jaettavaksi, tavanomainen anonymisointilista perustuu sarakkeisiin: tunnista henkilödataa sisältävät sarakkeet, poista tai pseudonymisoi nämä sarakkeet.
Tämä lähestymistapa käsittelee rakenteellista PII:tä luotettavasti. Sarake nimeltä "sähköposti" sisältää sähköpostiosoitteita — poista se. Sarake nimeltä "puhelin" sisältää puhelinnumeroita — poista se. Sarake nimeltä "osallistujan_nimi" sisältää nimiä — pseudonymisoi se.
Mitä sarakkeiden poistaminen ohittaa: PII, joka on upotettu vapaatekstivastaussarakkeisiin.
Kyselydatasetillä, jossa on 5 000 riviä ja 20 saraketta, saattaa olla:
- 5 rakenteellista PII-saraketta (nimi, sähköposti, puhelin, ID, syntymävuosi)
- 15 vapaatekstivastaussaraketta ("lisäkommentit", "kuvaile_kokemusta", "mikä_parantaisi", "muut_tiedot")
Rakenteelliset sarakkeet puhdistetaan sarakkeiden poistolla. Vapaatekstisarakkeet jätetään ennalleen. Mutta kyselyvastaukset sisältävät asioita kuten:
- "Lääkärini Boston Medical Centerissä, tohtori Maria Santos, sanoi, että hoito oli kokeellinen"
- "Olen käsitellyt tätä vuodesta 2019, kun John Hendersonin auto osui omaani"
- "Voit tavoittaa hoitajani osoitteesta margaret.wells@gmail.com, jos tarvitset lisätietoja"
Nämä merkinnät sisältävät nimettyjä henkilöitä, institutionaalisia sidoksia, terveyteen liittyvää tietoa ja yhteystietoja — mitään näistä ei näy sarakeotsikoissa, eikä mikään näistä jää sarakkeiden poistamisen anonymisoinnin piiriin.
Miksi tämä ei täytä GDPR:n anonymisointistandardia
GDPR:n johdanto 26 määrittelee anonyymit tiedot tiedoiksi, jotka "eivät liity tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön." Anonymisoinnin standardi on korkea: tiedot ovat vain anonyymejä, jos on "mahdotonta" (kohtuullisessa arviossa) tunnistaa tietoaineiston kohde.
Osittain anonymisoitu tutkimus-CSV — rakenteelliset sarakkeet puhdistettu, vapaatekstisarakkeet sisältävät nimettyjä henkilöitä — ei täytä tätä standardia. Vapaatekstivastauksissa olevat nimettyjä henkilöitä ovat tunnistettavissa, ja datasetti pysyy siten henkilötietona, joka on GDPR:n artiklan 89 suojausvaatimusten alainen.
Tällä on merkitystä useissa tutkimuskonteksteissa:
Artiklan 89 tutkimuspoikkeus: GDPR:n artikla 89 sallii henkilötietojen käsittelyn tieteellisiin tutkimustarkoituksiin vähennetyillä velvoitteilla, mutta vain, jos "sopivia suojatoimia" on käytössä. Datasetin jakaminen, joka on osittain anonymisoitu (mutta sisältää silti PII:tä vapaatekstissä) samalla kun väitetään, että se täyttää artiklan 89 suojat, on vaatimustenmukaisuuden epäonnistuminen.
Tutkimuseettisen lautakunnan hyväksyntä: Useimmat akateemiset IRB:t ja eettiset tarkastelulautakunnat vaativat, että jaettavat datasetit ovat aidosti anonymisoituja. Osittainen anonymisointi, joka jättää vapaatekstin PII:n ehjäksi, ei tyypillisesti täytä eettisen hyväksynnän ehtoja.
Datan jakamissopimukset instituutioiden välillä: DSAt tutkimusdatalle määrittävät tyypillisesti, että jaettavan datan on oltava anonymisoitu määriteltyyn standardiin. Osittainen anonymisointi, joka rikkoo GDPR:n johdantoa 26, voi rikkoa DSA:ta.
Vapaateksti PII:n havaitsemisen tekninen haaste
Vapaatekstikyselyvastaukset ovat yksi haastavimmista PII-havaitsemistavoista, koska:
Kontekstuaalinen nimeäminen: "Tohtori Maria Santos Boston Medical Centerissä" vaatii NER:n havaitsemaan "Maria Santos" henkilönä ja "Boston Medical Center" organisaationa — ei avainsanan osumana. Mallit eivät ole ennustettavissa.
Satunnainen tunnistaminen: "John Hendersonin auto osui omaani" vaatii NER:n tunnistamaan "John Henderson" nimettynä henkilönä narratiivisessa kontekstissa — ei datakenttä, vaan henkilö, jota viitataan tarinassa.
Yhteystiedot odottamattomissa muodoissa: Sähköpostiosoitteet ja puhelinnumerot, jotka esiintyvät vapaatekstissä, saattavat olla ei-standardimuotoisia ("ota yhteyttä margaret piste wells at gmail") niin, että regex-pohjainen havaitseminen jää huomaamatta.
Tutkimuskohtaiset entiteettityypit: Akateeminen ja kliininen tutkimusdatan sisältää usein institutionaalisia tunnisteita (sairaalan ID:t, tutkimuspaikan koodit), kliinistä terminologiaa ja sijaintiviittauksia, jotka ovat PII:tä kontekstissa, vaikka eivät ilmeisesti olekaan.
Tämä on syy, miksi NLP-pohjainen havaitseminen — ei vain kaavion tunnistus — on tarpeen aidon vapaatekstikyselyn anonymisoinnin saavuttamiseksi.
Käyttötapaus: Moni-instituutioinen tutkimuskonsortio
Kolmen eurooppalaisen yliopiston tutkimuskonsortio toteutti potilaskokemuskyselyn: 5 000 vastaajaa, 3 rakenteellista PII-saraketta ja 8 vapaatekstivastaussaraketta. Dataa oli tarkoitus jakaa instituutioiden välillä yhteistyöanalyysiä varten Datan Jakamissopimuksen ja GDPR:n artiklan 89 poikkeuksen mukaisesti.
Tavanomainen lähestymistapa (vain sarakkeiden poistaminen):
- 3 rakenteellista PII-saraketta poistettu
- 8 vapaatekstisarjaa säilytetty ennallaan
- Vaatimustenmukaisuuden väite: "PII-sarakkeet poistettu"
- Todellinen jäljellä oleva PII: 47 nimettyä henkilöä mainittu vapaatekstivastauksissa, 23 sähköpostiosoitetta, jotka on annettu kommenteissa, 18 sijaintiviittausta, jotka voisivat tunnistaa vastaajia kontekstissa
Vapaatekstin NLP-havaitsemisen avulla:
- 3 rakenteellista PII-saraketta pseudonymisoitu (yhtenäiset tokenit, ei poistettu — säilyttäen rivimäärän eheyden)
- 8 vapaatekstisarjaa käsitelty: 47 henkilön nimeä havaittu ja korvattu, 23 sähköpostiosoitetta havaittu ja peitetty, 18 sijaintiviittausta havaittu ja yleistetty ("Boston Medical Center" → "[Terveydenhuollon laitos]")
- Tuloste: aidosti anonymisoitu datasetti, joka täyttää GDPR:n johdantoa 26
- Tutkimuseettinen komitea hyväksyi anonymisointimenetelmän
- DSA:n vaatimustenmukaisuus vahvistettu DPO:n tarkastuksella
Ero: toinen lähestymistapa tuottaa datasetin, joka todella täyttää anonymisointistandardin. Ensimmäinen lähestymistapa tuottaa datasetin, joka näyttää olevan anonymisoitu, mutta sisältää tunnistettavaa tietoa sarakkeissa, joita ei ole tarkastettu.
Tutkimusdatan anonymisointiprotokollan rakentaminen
Tutkimusryhmille, jotka työskentelevät kysely- ja haastatteludatan parissa, strukturoitu esijakoprotokolla:
Vaihe 1: Sarakkeiden luokittelu
- Luokittele kaikki sarakkeet: rakenteellinen PII, rakenteellinen ei-PII, vapaatekstivastaus
- Dokumentoi luokittelu
Vaihe 2: Rakenteellisen PII:n käsittely
- Poista (jos ei tarvita tutkimuksessa) tai pseudonymisoi (jos tarvitaan tietojen yhdistämiseksi)
- Dokumentoi käytetyt korvaavat tokenit
Vaihe 3: Vapaatekstisisällön analyysi
- Suorita NLP-havaitseminen kaikille vapaatekstisarjoille
- Tarkista havaitut entiteetit: vahvista, mitkä edustavat aitoa PII:tä
- Käytä korvauksia vahvistetuille PII-entiteeteille
Vaihe 4: Vahvistus
- Ota näyte 50-100 rivistä tulostetusta datasetistä
- Manuaalinen tarkistus kaikista vapaatekstimerkinnöistä, jotka sisältävät havaitut entiteetit
- Vahvista, että havaitsemisaste on sopiva saraketyypille
Vaihe 5: Dokumentointi
- Anonymisointimenetelmien dokumentti: käytetyt työkalut, havaitut entiteettityypit, käsitellyt sarakkeet
- Jaa menetelmädokumentti yhdessä anonymisoidun datasetin kanssa eettistä tarkastelua varten
Tämä protokolla muuttaa "poistimme nimesarakkeen" puolustettavaksi, dokumentoiduksi anonymisointiprosessiksi, joka täyttää GDPR:n artiklan 89 ja institutionaaliset tutkimuseettiset vaatimukset.
Lähteet: