Vrzel, ki jo Brisanje Stolpcev Zamudi
Posodobljeno za leto 2026
Raziskovalne zbirke podatkov se med univerzami premikajo kot datoteke CSV. Ko ekipe pripravljajo CSV za deljenje, je delo temelji na stolpcih. Poiscite osebne podatke. Izbrisite jih ali zamenjajte.
Ta metoda deluje za fiksna polja. Stolpec z imenom "e-posta" vsebuje e-postne naslove -- izbrisi ga. Stolpec z imenom "telefon" vsebuje telefonske stevilke -- izbrisi ga. Stolpec z imenom "ime_udelezenca" vsebuje imena -- zamenjaj z kodo.
Toda stolpci z odgovori v prostem besedilu so slepa pega. Odstranjevanje oznacenih stolpcev jih ne dotakne.
Anketa s 5.000 vrsticami ima morda pet strukturiranih stolpcev OO in petnajst stolpcev z odgovori v odprtem besedilu. Strukturirani vsebujejo imena, e-poste, telefonske stevilke, ID-je in leta rojstva. Odprtih besedil vsebuje komentarje, opombe in predloge.
Strukturirani stolpci se ocistijo. Stolpci z odprtim besedilom ostanejo surovi. Toda ljudje pisejo stvari, kot so ti trije primeri.
Prvi: "Moj zdravnik v Bolnisnici Golnik, dr. Marija Kos, je rekla, da je zdravljenje novo." Drugi: "S tem se spopadam od svoje nesrece leta 2019." Tretji: "Za podrobnosti me lahko dosezete prek mojega negovalca na mojnegovalec@gmail.com."
Vsak vnos imenuje pravo osebo. Nekateri vkljucujejo zdravstvena dejstva ali kontaktne podatke. Nic od tega se ne pojavi v naslovu stolpca. Nic od tega ne ujame brisanje stolpcev.
Zakaj To ne Izpolnjuje Standarda GDPR
Uvodna navedba 26 GDPR opredeljuje anonimne zapise kot zapise, ki jih ni mogoce povezati z nobeno osebo. Meja je visoka. Zapisi so resnig anonimni le, ko ponovna identifikacija ni razumno mogoca.
CSV s cistimi fiksnimi stolpci, toda z imenovanimi osebami v odprtem besedilu, tega preizkusa ne prestane. Ta imena so prepoznavna. Zbirka podatkov je se vedno osebna. Pravila clena 89 GDPR se se vedno uporabljajo. Pojavijo se torej ta tri tveganja.
Izjema za raziskave po clenu 89: Clen 89 dovoljuje raziskovalcem obdelavo osebnih podatkov za znanost z manj obveznostmi. Toda samo kjer obstajajo "ustrezni zavarovalki". Deljenje datoteke z OO v odprtem besedilu ob sklicevanju na pokritje po clenu 89 je pravna napaka.
Odobritev eticnega odbora: Vecina IRB in eticnih odborov zahteva popolno anonimizacijo za deljene zbirke podatkov. Delno delo -- ocisceni fiksni stolpci, surovo odprto besedilo -- navadno ne uspe. Odbor lahko zavrne predlozitev.
Sporazumi o deljenju podatkov: DSA med institucijami dolocajo zahtevano raven anonimizacije. Delno delo, ki ne izpolnjuje uvodne navedbe 26 GDPR, lahko krsi DSA. Glejte nas pregled pravne skladnosti za to, kako se to vkljucuje v sirse program.
Zakaj Je Odprto Besedilo Tako Tezko Ocistiti
Odgovori ankete s prostim besedilom so med najtezjimi cilji OO. Tukaj je razlog.
Imena v kontekstu: "Dr. Marija Kos v Bolnisnici Golnik" zahteva prepoznavanje poimenovanih entitet (NER), da se oznaci oseba in organizacija. Seznami kljucnih besed tega ne morejo najti.
Imena v zgodbah: "Vozilo Jana Kovaca je zadelo moje" postavi pravo ime v zgodbo. Gre za osebo, omenjeno mimogrede. Samo NER ga ujame.
Nestandardni formati: Kontaktni podatki so morda napisani kot "dosezite me na marija pika kos pri gmail." Preprosta orodja regex tega zamudijo.
Izrazi specificni za raziskave: Klinicne ankete pogosto vsebujejo ID-je bolnisnic, sifre mest in krajevna imena. Ti lahko identificirajo osebo, tudi ce izgledajo splosno.
Torej samo ujemanje vzorcev ni dovolj. Za pravo anonimizacijo anket so potrebna orodja, ki temeljijo na NLP. Glejte Varnost in Skladnost za tehnicne moznosti.
Pravi Primer Treh Univerz
Raziskovalna ekipa na treh evropskih univerzah je izvedla anketo o izkusnjah pacientov. Zbirka podatkov je imela 5.000 anketirancev, 3 fiksne stolpce OO in 8 stolpcev z odprtim besedilom. Nacrt je bil deliti datoteko med mesti po DSA in clenu 89 GDPR.
Samo z brisanjem stolpcev:
- Fiksni stolpci OO: odstranjeni
- Stolpci z odprtim besedilom: ostali surovi
- Trditev: "Stolpci OO izbrisani"
- OO, ki je ostalo: 47 poimenovanih oseb, 23 e-postnih naslovov v komentarjih, 18 krajevnih imen, ki bi lahko identificirala anketirance
Z zaznavanjem na podlagi NLP:
- Fiksni stolpci OO: zamenjani z doslednimi znaki
- Stolpci z odprtim besedilom: 47 imen zamenjanih, 23 e-post zamaskiranih, 18 krajevnih imen sploscenih ("Bolnisnica Golnik" -> "[Zdravstvena Institucija]")
- Rezultat: datoteka, ki prestane uvodno navedbo 26 GDPR
- Eticni odbor je odobril metodo
- DPO je potrdil skladnost z DSA
Vrzel je resnin. Prvi izhod izgleda cist. Drugi izhod je cist.
Petkoracni Protokol pred Deljenjem
Uporabite te korake, preden delite katero koli anketo ali datoteko intervjuja.
Korak 1: Oznacite vsak stolpec Vsak stolpec oznacite kot fiksni OO, fiksni ne-OO ali odprto besedilo. Zapisite to.
Korak 2: Obravnavajte fiksni OO Izbrisite vnose, ki niso potrebni za analizo. Zamenjajte vnose, potrebne za povezovanje zapisov. Zapisite uporabljene kode.
Korak 3: Skeniranje stolpcev z odprtim besedilom Na vseh stolpcih z odprtim besedilom zazenite zaznavanje NLP. Preglejte vsak rezultat. Potrdite, kateri so pravi OO.
Korak 4: Apliciranje zamenjav
Zamenjajte potrjene OO v izhodu z odprtim besedilom. Uporabite jasne oznake, kot so [OSEBA], [E-POSTA] ali [LOKACIJA].
Korak 5: Preverite in dokumentirajte V izhodu vzorcno preglejte 50--100 vrstic. Preverite vnose z odprtim besedilom rocno. Napisite kratek povzetek: orodja, ki so bila uporabljena, najdene vrste entitet, obdelani stolpci. Delite ga z datoteko za pregled eticnega odbora.
To "izbrisali smo stolpec z imeni" pretvori v jasen, dokumentiran postopek. Izpolnjuje clen 89 GDPR in standarde anonimizacije, ki jih zahteva vecina eticnih odborov. Obisc ite nas center za dokumente za sorodne vodnike.
Viri
- Clen 89 GDPR: Zavarovalke za Znanstvene Raziskave -- VERIFIED-EXTERNAL
- Uvodna navedba 26 GDPR: Nacel o Anonimizaciji -- VERIFIED-EXTERNAL
- ICO: Anonimizacija in Tveganje Varstva Podatkov -- VERIFIED-EXTERNAL