Aukko, jonka sarakkeiden poisto jättää
Päivitetty vuodelle 2026
Tutkimusaineistot liikkuvat yliopistojen välillä CSV-tiedostoina. Kun tiimit valmistelevat CSV:n jakamista varten, työ on sarakepohjaista. Löydä henkilötieto. Poista tai korvaa se.
Tämä menetelmä toimii kiinteille kentille. "Sähköposti"-niminen sarake sisältää sähköpostiosoitteita — poista se. "Puhelin"-niminen sarake sisältää puhelinnumeroita — poista se. "Osallistujan_nimi"-niminen sarake sisältää nimiä — vaihda koodiksi.
Mutta vapaatekstivastaussarakkeet ovat sokea piste. Merkittyjen sarakkeiden poistaminen ei koske niitä.
5 000 rivin kyselyssä saattaa olla viisi rakenteellista henkilötietosaraketta ja viisitoista avotekstivastaussaraketta. Rakenteelliset sisältävät nimiä, sähköposteja, puhelinnumeroita, tunnistuksia ja syntymävuosia. Avoteksti sisältää kommentteja, muistiinpanoja ja ehdotuksia.
Rakenteelliset sarakkeet puhdistetaan. Avotekstisarakkeet jäävät raakoina. Mutta ihmiset kirjoittavat sellaisia asioita kuin nämä kolme esimerkkiä.
Ensimmäinen: "Lääkärini Bostonin lääketieteellisessä keskuksessa, Dr. Maria Santos, kertoi hoidon olevan uutta." Toinen: "Olen käsitellyt tätä vuoden 2019 onnettomuuteni jälkeen." Kolmas: "Voit tavoittaa hoitajani margaret.wells@gmail.com osoitteesta tarkempia tietoja varten."
Kukin merkintä nimeää todellisen henkilön. Jotkut sisältävät terveystietoja tai yhteystietoja. Mikään näistä ei esiinny sarakkeen otsikossa. Mikään niistä ei jää sarakkeiden poistolla kiinni.
Miksi tämä epäonnistuu GDPR-standardin mukaan
GDPR:n johdanto-osa 26 määrittelee anonyymit tietueet tietueiksi, joita ei voida yhdistää kehenkään henkilöön. Rima on korkea. Tietueet ovat aidosti anonyymejä vain silloin, kun uudelleentunnistaminen ei ole kohtuudella mahdollista.
CSV, jossa on puhtaat kiinteät sarakkeet mutta nimetyt henkilöt avotekstissä, ei läpäise tätä testiä. Nämä nimet ovat tunnistettavia. Tietoaineisto on edelleen henkilökohtainen. GDPR:n artiklan 89 säännöt soveltuvat edelleen. Siitä seuraa kolme riskiä.
Artiklan 89 tutkimuspoikkeus: Artikla 89 sallii tutkijoiden käsitellä henkilötietoja tiedettä varten vähemmillä velvollisuuksilla. Mutta vain silloin, kun "asianmukaiset suojatoimet" ovat olemassa. Tiedoston jakaminen avotekstissä olevilla henkilötiedoilla artiklan 89 suojan vetoamana on oikeudellinen epäonnistuminen.
Eettinen hyväksyntä: Useimmat eettisyyskomiteat ja arviointilautakunnat edellyttävät täydellistä anonymisointia jaetuille aineistoille. Osittainen työ — kiinteät sarakkeet puhdistettu, avoteksti raa'ana — yleensä hylätään. Lautakunta voi hylätä hakemuksen.
Datanjaosopimukset: Laitosten väliset DSA:t asettavat vaaditun anonymisointitason. Osittainen työ, joka ei täytä GDPR:n johdanto-osan 26 vaatimuksia, voi rikkoa DSA:ta. Katso Oikeudellisen vaatimustenmukaisuuden yleiskatsauksemme siitä, miten tämä sopii laajempaan ohjelmaan.
Miksi avoteksti on niin vaikea puhdistaa
Vapaamuotoiset kyselyvastaukset ovat vaikeimpia henkilötietokohteita. Tässä syy.
Nimet kontekstissa: "Dr. Maria Santos Bostonin lääketieteellisessä keskuksessa" vaatii nimettyjen yksikköjen tunnistusta (NER) henkilön ja organisaation merkitsemiseen. Avainsanalistat eivät löydä tätä.
Nimet tarinoissa: "John Hendersonin auto törmäsi minun autooni" asettaa todellisen nimen tarinan sisään. Se on ohimennen mainittu henkilö. Vain NER havaitsee sen.
Epätavalliset muodot: Yhteystieto saattaa olla muodossa "tavoita minut margaret piste wells at gmail." Yksinkertaiset regex-työkalut jättävät nämä huomaamatta.
Tutkimuskohtaiset termit: Kliiniset kyselyt sisältävät usein sairaala-tunnuksia, paikkatunnuksia ja paikannimiä. Nämä voivat tunnistaa henkilön, vaikka ne näyttävät geneerisiltä.
Pelkkä kaavojen etsintä ei siis riitä. Aidossa kyselyjen anonymisoinnissa tarvitaan NLP-pohjaisia työkaluja. Katso Tietoturva & Vaatimustenmukaisuus teknisistä vaihtoehdoista.
Todellinen esimerkki kolmesta yliopistosta
Kolmen eurooppalaisen yliopiston tutkimustiimi teki potilaiden kokemuksia koskevan kyselyn. Aineistossa oli 5 000 vastaajaa, 3 kiinteää henkilötietosaraketta ja 8 avotekstisaraketta. Suunnitelma oli jakaa tiedosto sivustojen välillä DSA:n ja GDPR:n artiklan 89 nojalla.
Vain sarakkeiden poistolla:
- Kiinteät henkilötietosarakkeet: poistettu
- Avotekstisarakkeet: jätetty raakoina
- Väite: "Henkilötietosarakkeet poistettu"
- Jäljelle jääneet henkilötiedot: 47 nimettyä henkilöä, 23 sähköpostiosoitetta kommenteissa, 18 paikanimeä, jotka voivat tunnistaa vastaajia
NLP-pohjaisella tunnistuksella:
- Kiinteät henkilötietosarakkeet: korvattu johdonmukaisilla tunnisteilla
- Avotekstisarakkeet: 47 nimeä korvattu, 23 sähköpostia peitetty, 18 paikanimeä muutettu yleisiksi ("Bostonin lääketieteellinen keskus" → "[Terveydenhuoltolaitos]")
- Tulos: tiedosto läpäisee GDPR:n johdanto-osan 26
- Eettisyyskomitea hyväksyi menetelmän
- Tietosuojavastaava vahvisti DSA-vaatimustenmukaisuuden
Aukko on todellinen. Ensimmäinen tuloste näyttää puhtaalta. Toinen tuloste on puhdas.
Viisivaiheinen ennakkojako-protokolla
Käytä näitä vaiheita ennen minkään kysely- tai haastattelutiedoston jakamista.
Vaihe 1: Merkitse jokainen sarake Merkitse jokainen sarake kiinteäksi henkilötiedoksi, kiinteäksi ei-henkilötiedoksi tai avotekstiksi. Kirjoita se ylös.
Vaihe 2: Käsittele kiinteä henkilötieto Poista analyysiin tarpeettomat merkinnät. Korvaa tietueiden linkittämiseen tarvittavat merkinnät. Kirjaa käytetyt koodit.
Vaihe 3: Skannaa avotekstisarakkeet Aja NLP-tunnistus kaikilla avotekstisarakkeilla. Tarkista jokainen tulos. Vahvista mitkä ovat todellista henkilötietoa.
Vaihe 4: Tee korvaukset
Korvaa vahvistettu henkilötieto avotekstin tulosteessa. Käytä selkeitä merkintöjä kuten [PERSON], [EMAIL] tai [LOCATION].
Vaihe 5: Vahvista ja dokumentoi Ota 50–100 rivin otos tulosteesta. Tarkista avotekstimerkinnät käsin. Kirjoita lyhyt yhteenveto: käytetyt työkalut, löydetyt yksikkötyypit, käsitellyt sarakkeet. Jaa se tiedoston mukana eettistä tarkastelua varten.
Tämä muuttaa "poistimme nimisarakkeen" selkeäksi, dokumentoiduksi prosessiksi. Se täyttää GDPR:n artiklan 89 ja anonymisointistandardit, joita useimmat eettisyyskomiteat edellyttävät. Käy dokumentaatiokeskuksessamme muita aiheeseen liittyviä oppaita varten.
Lähteet
- GDPR artikla 89: Suojatoimet tieteelliselle tutkimukselle — VERIFIED-EXTERNAL
- GDPR johdanto-osa 26: Anonymisointiperiaate — VERIFIED-EXTERNAL
- ICO: Anonymisointi ja tietosuojariski — VERIFIED-EXTERNAL