Struktuuri vs vabateksti PII-probleemi
Akadeemiliste asutuste vahel jagatavad uuringu andmed liiguvad kõige tavalisemalt CSV-formaadis. Kui uurijad valmistuvad CSV-id jagamiseks, on standardne anonüümimise kontroll veeru-baasne: tuvastage isikuandmeid sisaldavad veerud, kustutage või pseudonüümiga märgistage need veerud.
See lähenemisviis käsitleb struktuuri PII-d usaldusväärselt. Veerg nimega "email" sisaldab e-posti aadresse — kustutage see. Veerg nimega "phone" sisaldab telefoninumbreid — kustutage see. Veerg nimega "participant_name" sisaldab nimesid — pseudonüümiga märgistage see.
Mida veeru-kustutamise lähenemisviis on jätnud vahele: PII, mis on manustatud vabateksti vastuste veergudesse.
Aankeetandmestik 5000 rida ja 20 veeru puhul võib olla:
- 5 struktureeritud PII-veeru (nimi, e-post, telefon, ID, sünniaasta)
- 15 vabateksti vastuse veergu ("additional_comments", "describe_experience", "what_would_improve", "other_details")
Struktuursed veerud puhastuvad veeru kustutamisega. Vabateksti veerud jäetakse samamoodi. Kuid ankeetidele vastavad kirjutavad asju nagu:
- "Minu arst Boston Medical Centers, dr Maria Santos, ütles, et ravi oli katseandmetu"
- "Olen selle käsitlenud alates 2019. aasta õnnetusest, kui John Hendersoni auto mu pihta jooksis"
- "Te saate kontakteerida minu hooldajat margaret.wells@gmail.com, kui vajate lisateavet"
Need kirjed sisaldavad nimetatud isikuid, asutuste siduvaid, terviseinfot ja kontakti üksikasju — millest ükski ei ilmu veeru päises, ja mida ükski veeru-kustutamisel anonüümimise käigus ei pühita.
Miks see ebaõnnestub GDPR-i anonüümimise standardis
GDPR-i otsus 26 määratleb anonüümseid andmeid kui teavet, mis "ei ole seotud määratletud või tuvastatava looduslikuga isikuga." Anonüümimise standard on kõrge: andmeid on anonüümsed ainult juhul, kui on "võimatu" (mõistlikus hinnangus) andmesubjekti tuvastada.
Osaliselt anonüümitud uuringu CSV — struktuursed veerud puhastatud, vabateksti veerud sisaldavad nimetatud isikuid — ei rahulda seda standardit. Vabateksti vastustes nimetatud isikud on tuvastatavad, ja andmekogum jääb seega GDPR artikli 89 kaitsemeetmete nõudmiste alla kuuluvaks isikuandmete kogumiks.
See on oluline mitmes uuringu kontekstis:
Artikkel 89 uuringu erand: GDPR artikkel 89 lubab isikuandmete töötlust teadusuuringute eesmärkidel vähendatud kohustuste puhul, kuid ainult juhul, kui "asjakohased kaitsemeetmed" on olemas. Andmekogumi jagamine, mis on osaliselt anonüümitud (kuid sisaldab veel vabateksti PII-sid), artikli 89 kaitsemeetmete nõuete vastavuse taotlemisel on nõuetele mittevastavus.
Uuringu eetika nõukogu heakskiit: Enamik akadeemilisi IRB-sid ja eetika arvamuste nõukogusid nõuavad, et jagatud andmekogum oleks tõeliselt anonüümitud. Osaline anonüümiseerimine, mis jätab vabateksti PII vahele, ei rahulda tavaliselt eetika heakskiidu tingimusi.
Andmete jagamise lepingud asutuste vahel: DSA-d uuringuandmete jaoks määratleavad tavaliselt, et jagatud andmed peavad olema anonüümsed määratletud standardini. Osaline anonüümiseerimine, mis ebaõnnestub GDPR-i otsus 26, võib DSA rikkuda.
Vabateksti PII-tuvastamise tehniline väljakutse
Vabateksti uuringuvastused on üheks kõige keerulisemaks PII-tuvastuse sihtmärgiks, sest:
Kontekstipõhine nimetamine: "Dr. Maria Santos Boston Medical Centeris" nõuab NER-ilt tuvastada "Maria Santose" isikuna ja "Boston Medical Center" organisatsioonina — mitte märksõna vaste. Mustrid ei ole ennustatavad.
Juhuslik tuvastamine: "John Hendersoni auto jooksis mu pihta" nõuab NER-ilt tuvastada "John Henderson" nimetatud isikuna narratiivis — mitte andmeväli, vaid isik, kelle mainiti loos.
Kontaktinfo mittestandartses formaadis: E-posti aadressid ja telefoninumbrid vabatekstis võivad olla mittestandartses formaadis ("pöörduge minu poole aadressil margaret punkt wells kell gmail"), mida regex-ainult tuvastamine jätab vahele.
Uuringute spetsiifilised isiku tüübid: Akadeemiline ja kliiniline uuringu andmete samplitus sisaldab sageli asutuste tuvastajaid (haigla ID-sid, uuringu kohtade koode), kliinilist terminoloogiat ja asukoha viiteid, mis on PII kontekstis isegi juhul, kui need ei ole ilmselt olemas.
See on põhjus, miks NLP-põhine tuvastamine — mitte muster-sobitamine üksinda — on vajalik tõelise vabateksti ankeetide anonüümiseerimiseks.
Kasutamise juhtum: Mitme asutuse uuringu konsortsium
Kolme Euroopa ülikooli uuringu konsortsium viis läbi patsiendi kogemuse uuringu: 5000 osalejat, 3 struktureeritud PII-veergu ja 8 vabateksti vastuse veergu. Andmeid tuli jagada asutuste vahel koostöö analüüsimiseks GDPR artikli 89 erandiga.
Standardne lähenemisviis (veeru kustutamine üksinda):
- 3 struktureeritud PII-veeru eemaldatud
- 8 vabateksti veergu säilitatud samamoodi
- Nõuete vastavuse väide: "PII veerud kustutatud"
- Tegelik PII jäänud: 47 nimetatud isikut vabateksti vastustes, 23 e-posti aadresse kommentaarides, 18 asukoha viiteid, mis võivad kontekstis osalejaid tuvastada
Vabateksti NLP-tuvastamisega:
- 3 struktureeritud PII-veeru pseudonüümiga märgistatud (ühtsete sõlmede, mitte kustutatud — säilitades rea arvu terviklikkuse)
- 8 vabateksti veergu töödeldud: 47 inimese nime tuvastatud ja asendatud, 23 e-posti aadresse tuvastatud ja maskeeritud, 18 asukoha viiteid tuvastatud ja üldistatud ("Boston Medical Center" → "[Healthcare Institution]")
- Väljund: tõeliselt anonüümitud andmekogum, mis rahuldab GDPR-i otsus 26 standardi
- Uuringu eetika komitee aktsepteeris anonüümimise metoodikat
- DSA-i nõuetele vastavuse kinnitamine DPO-i ülevaatuse teel
Ero: teine lähenemisviis toodab andmekogumi, mis tegelikult rahuldab anonüümimise standardi. Esimene lähenemisviis toodab andmekogumi, mis näeb anonüümsena välja, kuid sisaldab tuvastatavat teavet veergudes, mida ei ülevaatatud.
Uuringu andmete anonüümiseerimise protokolli koostamine
Uringu meeskondade jaoks, kes töötavad ankeet- ja intervjuuandmetega, on struktureeritud eel-jagamise protokoll:
1. samm: Veeru klassifitseerimine
- Kategoriseerige kõik veerud: struktureeritud PII, struktureeritud mittePII, vabateksti vastus
- Dokumenteerige klassifitseerimine
2. samm: Struktureeritud PII käsitlus
- Kustutage (kui uuringu jaoks pole vaja) või pseudonüümiga märgistage (kui on vaja rea lingitamiseks)
- Dokumenteerige kasutatavad asendus-märgid
3. samm: Vabateksti sisu analüüs
- Käivitage NLP-tuvastamine kõigis vabateksti veergudes
- Ülevaatus tuvastatud olenditest: kinnitage, millised esindavad tõelist PII-d
- Rakendage asendused kinnitatud PII-olenditele
4. samm: Kontroll
- Valim 50-100 rida väljundi andmekogumist
- Käsikaudu ülevaatus mis tahes vabateksti kirjetest, mis sisaldavad tuvastatud olenditest
- Kinnitage, et tuvastamise määr on veeru tüübi jaoks asjakohane
5. samm: Dokumenteerimine
- Anonüümimise metoodikat dokument: kasutatavad vahendid, tuvastatud olenditüübid, töödeldud veerud
- Jagake metoodikat dokumenti koos anonüümsitud andmekogumiga eetika ülevaatusele
See protokoll teisendab "me kustutasime nime veeru" kaitsekõnega anonüümimis protsessiga, mis rahuldab GDPR-i artikli 89 ja asutuse uuringu eetika nõudmisi.
Allikad: