Aukko, jonka sarakkeiden poisto jättää

Päivitetty vuodelle 2026

Tutkimusaineistot liikkuvat yliopistojen välillä CSV-tiedostoina. Kun tiimit valmistelevat CSV:n jakamista varten, työ on sarakepohjaista. Löydä henkilötieto. Poista tai korvaa se.

Tämä menetelmä toimii kiinteille kentille. "Sähköposti"-niminen sarake sisältää sähköpostiosoitteita — poista se. "Puhelin"-niminen sarake sisältää puhelinnumeroita — poista se. "Osallistujan_nimi"-niminen sarake sisältää nimiä — vaihda koodiksi.

Mutta vapaatekstivastaussarakkeet ovat sokea piste. Merkittyjen sarakkeiden poistaminen ei koske niitä.

5 000 rivin kyselyssä saattaa olla viisi rakenteellista henkilötietosaraketta ja viisitoista avotekstivastaussaraketta. Rakenteelliset sisältävät nimiä, sähköposteja, puhelinnumeroita, tunnistuksia ja syntymävuosia. Avoteksti sisältää kommentteja, muistiinpanoja ja ehdotuksia.

Rakenteelliset sarakkeet puhdistetaan. Avotekstisarakkeet jäävät raakoina. Mutta ihmiset kirjoittavat sellaisia asioita kuin nämä kolme esimerkkiä.

Ensimmäinen: "Lääkärini Bostonin lääketieteellisessä keskuksessa, Dr. Maria Santos, kertoi hoidon olevan uutta." Toinen: "Olen käsitellyt tätä vuoden 2019 onnettomuuteni jälkeen." Kolmas: "Voit tavoittaa hoitajani margaret.wells@gmail.com osoitteesta tarkempia tietoja varten."

Kukin merkintä nimeää todellisen henkilön. Jotkut sisältävät terveystietoja tai yhteystietoja. Mikään näistä ei esiinny sarakkeen otsikossa. Mikään niistä ei jää sarakkeiden poistolla kiinni.

GDPR:n johdanto-osa 26 määrittelee anonyymit tietueet tietueiksi, joita ei voida yhdistää kehenkään henkilöön. Rima on korkea. Tietueet ovat aidosti anonyymejä vain silloin, kun uudelleentunnistaminen ei ole kohtuudella mahdollista.

CSV, jossa on puhtaat kiinteät sarakkeet mutta nimetyt henkilöt avotekstissä, ei läpäise tätä testiä. Nämä nimet ovat tunnistettavia. Tietoaineisto on edelleen henkilökohtainen. GDPR:n artiklan 89 säännöt soveltuvat edelleen. Siitä seuraa kolme riskiä.

Artiklan 89 tutkimuspoikkeus: Artikla 89 sallii tutkijoiden käsitellä henkilötietoja tiedettä varten vähemmillä velvollisuuksilla. Mutta vain silloin, kun "asianmukaiset suojatoimet" ovat olemassa. Tiedoston jakaminen avotekstissä olevilla henkilötiedoilla artiklan 89 suojan vetoamana on oikeudellinen epäonnistuminen.

Eettinen hyväksyntä: Useimmat eettisyyskomiteat ja arviointilautakunnat edellyttävät täydellistä anonymisointia jaetuille aineistoille. Osittainen työ — kiinteät sarakkeet puhdistettu, avoteksti raa'ana — yleensä hylätään. Lautakunta voi hylätä hakemuksen.

Datanjaosopimukset: Laitosten väliset DSA:t asettavat vaaditun anonymisointitason. Osittainen työ, joka ei täytä GDPR:n johdanto-osan 26 vaatimuksia, voi rikkoa DSA:ta. Katso Oikeudellisen vaatimustenmukaisuuden yleiskatsauksemme siitä, miten tämä sopii laajempaan ohjelmaan.

Miksi avoteksti on niin vaikea puhdistaa

Vapaamuotoiset kyselyvastaukset ovat vaikeimpia henkilötietokohteita. Tässä syy.

Nimet kontekstissa: "Dr. Maria Santos Bostonin lääketieteellisessä keskuksessa" vaatii nimettyjen yksikköjen tunnistusta (NER) henkilön ja organisaation merkitsemiseen. Avainsanalistat eivät löydä tätä.

Nimet tarinoissa: "John Hendersonin auto törmäsi minun autooni" asettaa todellisen nimen tarinan sisään. Se on ohimennen mainittu henkilö. Vain NER havaitsee sen.

Epätavalliset muodot: Yhteystieto saattaa olla muodossa "tavoita minut margaret piste wells at gmail." Yksinkertaiset regex-työkalut jättävät nämä huomaamatta.

Tutkimuskohtaiset termit: Kliiniset kyselyt sisältävät usein sairaala-tunnuksia, paikkatunnuksia ja paikannimiä. Nämä voivat tunnistaa henkilön, vaikka ne näyttävät geneerisiltä.

Pelkkä kaavojen etsintä ei siis riitä. Aidossa kyselyjen anonymisoinnissa tarvitaan NLP-pohjaisia työkaluja. Katso Tietoturva & Vaatimustenmukaisuus teknisistä vaihtoehdoista.

Todellinen esimerkki kolmesta yliopistosta

Kolmen eurooppalaisen yliopiston tutkimustiimi teki potilaiden kokemuksia koskevan kyselyn. Aineistossa oli 5 000 vastaajaa, 3 kiinteää henkilötietosaraketta ja 8 avotekstisaraketta. Suunnitelma oli jakaa tiedosto sivustojen välillä DSA:n ja GDPR:n artiklan 89 nojalla.

Vain sarakkeiden poistolla:

Kiinteät henkilötietosarakkeet: poistettu
Avotekstisarakkeet: jätetty raakoina
Väite: "Henkilötietosarakkeet poistettu"
Jäljelle jääneet henkilötiedot: 47 nimettyä henkilöä, 23 sähköpostiosoitetta kommenteissa, 18 paikanimeä, jotka voivat tunnistaa vastaajia

NLP-pohjaisella tunnistuksella:

Kiinteät henkilötietosarakkeet: korvattu johdonmukaisilla tunnisteilla
Avotekstisarakkeet: 47 nimeä korvattu, 23 sähköpostia peitetty, 18 paikanimeä muutettu yleisiksi ("Bostonin lääketieteellinen keskus" → "[Terveydenhuoltolaitos]")
Tulos: tiedosto läpäisee GDPR:n johdanto-osan 26
Eettisyyskomitea hyväksyi menetelmän
Tietosuojavastaava vahvisti DSA-vaatimustenmukaisuuden

Aukko on todellinen. Ensimmäinen tuloste näyttää puhtaalta. Toinen tuloste on puhdas.

Viisivaiheinen ennakkojako-protokolla

Käytä näitä vaiheita ennen minkään kysely- tai haastattelutiedoston jakamista.

Vaihe 1: Merkitse jokainen sarake Merkitse jokainen sarake kiinteäksi henkilötiedoksi, kiinteäksi ei-henkilötiedoksi tai avotekstiksi. Kirjoita se ylös.

Vaihe 2: Käsittele kiinteä henkilötieto Poista analyysiin tarpeettomat merkinnät. Korvaa tietueiden linkittämiseen tarvittavat merkinnät. Kirjaa käytetyt koodit.

Vaihe 3: Skannaa avotekstisarakkeet Aja NLP-tunnistus kaikilla avotekstisarakkeilla. Tarkista jokainen tulos. Vahvista mitkä ovat todellista henkilötietoa.

Vaihe 4: Tee korvaukset Korvaa vahvistettu henkilötieto avotekstin tulosteessa. Käytä selkeitä merkintöjä kuten [PERSON], [EMAIL] tai [LOCATION].

Vaihe 5: Vahvista ja dokumentoi Ota 50–100 rivin otos tulosteesta. Tarkista avotekstimerkinnät käsin. Kirjoita lyhyt yhteenveto: käytetyt työkalut, löydetyt yksikkötyypit, käsitellyt sarakkeet. Jaa se tiedoston mukana eettistä tarkastelua varten.

Tämä muuttaa "poistimme nimisarakkeen" selkeäksi, dokumentoiduksi prosessiksi. Se täyttää GDPR:n artiklan 89 ja anonymisointistandardit, joita useimmat eettisyyskomiteat edellyttävät. Käy dokumentaatiokeskuksessamme muita aiheeseen liittyviä oppaita varten.

Lähteet

GDPR artikla 89: Suojatoimet tieteelliselle tutkimukselle — VERIFIED-EXTERNAL
GDPR johdanto-osa 26: Anonymisointiperiaate — VERIFIED-EXTERNAL
ICO: Anonymisointi ja tietosuojariski — VERIFIED-EXTERNAL

Liittyvät Artikkelit

GDPR & Vaatimustenmukaisuus

Itse isännöidyt PII-työkalut epäonnistuvat compliance-auditoinneissa

spaCy 3.4.4 tuottaa erilaisia NER-tuloksia kuin spaCy 3.5.1. Eräs finanssipalveluyritys havaitsee, että 3 % asiakirjoista oli anonymisoitu eri tavalla staging- kuin tuotantoympäristössä — GDPR-auditoinnin tulos.

GDPR & Vaatimustenmukaisuus

Presidio ei tunnista 220+ GDPR-entiteettiä

Presidio toimitetaan noin 40 valmiilla entiteettitunnistimella, jotka keskittyvät yhdysvaltalaisiin tunnistimiin. Eurooppalaiset organisaatiot tarvitsevat IBAN:ia, kansallisia verotunnistenumeroita ja kansallisia asiakirjoja, joita Presidio ei sisällä.

GDPR & Vaatimustenmukaisuus

Konfiguraation ajautuminen: piilevä GDPR-riski

Analyytikko A korvaa nimet pseudonyymeillä. Analyytikko B mustaa ne. GDPR-tarkastuksesi löytää molemmat samasta aineistosta. Konfiguraation ajautuminen — jossa tiimi...

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.

Aloita Ilmainen Kokeilu Katso Ominaisuudet

CSV-vapaateksti ja henkilötieto: Pelkkä sarakkeiden poisto ei riitä

Aukko, jonka sarakkeiden poisto jättää

Miksi tämä epäonnistuu GDPR-standardin mukaan

Miksi avoteksti on niin vaikea puhdistaa

Todellinen esimerkki kolmesta yliopistosta

Viisivaiheinen ennakkojako-protokolla

Lähteet

Liittyvät Artikkelit

Itse isännöidyt PII-työkalut epäonnistuvat compliance-auditoinneissa

Presidio ei tunnista 220+ GDPR-entiteettiä

Konfiguraation ajautuminen: piilevä GDPR-riski

Valmiina suojaamaan tietojasi?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow