Vrzel, ki jo Brisanje Stolpcev Zamudi

Posodobljeno za leto 2026

Raziskovalne zbirke podatkov se med univerzami premikajo kot datoteke CSV. Ko ekipe pripravljajo CSV za deljenje, je delo temelji na stolpcih. Poiscite osebne podatke. Izbrisite jih ali zamenjajte.

Ta metoda deluje za fiksna polja. Stolpec z imenom "e-posta" vsebuje e-postne naslove -- izbrisi ga. Stolpec z imenom "telefon" vsebuje telefonske stevilke -- izbrisi ga. Stolpec z imenom "ime_udelezenca" vsebuje imena -- zamenjaj z kodo.

Toda stolpci z odgovori v prostem besedilu so slepa pega. Odstranjevanje oznacenih stolpcev jih ne dotakne.

Anketa s 5.000 vrsticami ima morda pet strukturiranih stolpcev OO in petnajst stolpcev z odgovori v odprtem besedilu. Strukturirani vsebujejo imena, e-poste, telefonske stevilke, ID-je in leta rojstva. Odprtih besedil vsebuje komentarje, opombe in predloge.

Strukturirani stolpci se ocistijo. Stolpci z odprtim besedilom ostanejo surovi. Toda ljudje pisejo stvari, kot so ti trije primeri.

Prvi: "Moj zdravnik v Bolnisnici Golnik, dr. Marija Kos, je rekla, da je zdravljenje novo." Drugi: "S tem se spopadam od svoje nesrece leta 2019." Tretji: "Za podrobnosti me lahko dosezete prek mojega negovalca na mojnegovalec@gmail.com."

Vsak vnos imenuje pravo osebo. Nekateri vkljucujejo zdravstvena dejstva ali kontaktne podatke. Nic od tega se ne pojavi v naslovu stolpca. Nic od tega ne ujame brisanje stolpcev.

Uvodna navedba 26 GDPR opredeljuje anonimne zapise kot zapise, ki jih ni mogoce povezati z nobeno osebo. Meja je visoka. Zapisi so resnig anonimni le, ko ponovna identifikacija ni razumno mogoca.

CSV s cistimi fiksnimi stolpci, toda z imenovanimi osebami v odprtem besedilu, tega preizkusa ne prestane. Ta imena so prepoznavna. Zbirka podatkov je se vedno osebna. Pravila clena 89 GDPR se se vedno uporabljajo. Pojavijo se torej ta tri tveganja.

Izjema za raziskave po clenu 89: Clen 89 dovoljuje raziskovalcem obdelavo osebnih podatkov za znanost z manj obveznostmi. Toda samo kjer obstajajo "ustrezni zavarovalki". Deljenje datoteke z OO v odprtem besedilu ob sklicevanju na pokritje po clenu 89 je pravna napaka.

Odobritev eticnega odbora: Vecina IRB in eticnih odborov zahteva popolno anonimizacijo za deljene zbirke podatkov. Delno delo -- ocisceni fiksni stolpci, surovo odprto besedilo -- navadno ne uspe. Odbor lahko zavrne predlozitev.

Sporazumi o deljenju podatkov: DSA med institucijami dolocajo zahtevano raven anonimizacije. Delno delo, ki ne izpolnjuje uvodne navedbe 26 GDPR, lahko krsi DSA. Glejte nas pregled pravne skladnosti za to, kako se to vkljucuje v sirse program.

Zakaj Je Odprto Besedilo Tako Tezko Ocistiti

Odgovori ankete s prostim besedilom so med najtezjimi cilji OO. Tukaj je razlog.

Imena v kontekstu: "Dr. Marija Kos v Bolnisnici Golnik" zahteva prepoznavanje poimenovanih entitet (NER), da se oznaci oseba in organizacija. Seznami kljucnih besed tega ne morejo najti.

Imena v zgodbah: "Vozilo Jana Kovaca je zadelo moje" postavi pravo ime v zgodbo. Gre za osebo, omenjeno mimogrede. Samo NER ga ujame.

Nestandardni formati: Kontaktni podatki so morda napisani kot "dosezite me na marija pika kos pri gmail." Preprosta orodja regex tega zamudijo.

Izrazi specificni za raziskave: Klinicne ankete pogosto vsebujejo ID-je bolnisnic, sifre mest in krajevna imena. Ti lahko identificirajo osebo, tudi ce izgledajo splosno.

Torej samo ujemanje vzorcev ni dovolj. Za pravo anonimizacijo anket so potrebna orodja, ki temeljijo na NLP. Glejte Varnost in Skladnost za tehnicne moznosti.

Pravi Primer Treh Univerz

Raziskovalna ekipa na treh evropskih univerzah je izvedla anketo o izkusnjah pacientov. Zbirka podatkov je imela 5.000 anketirancev, 3 fiksne stolpce OO in 8 stolpcev z odprtim besedilom. Nacrt je bil deliti datoteko med mesti po DSA in clenu 89 GDPR.

Samo z brisanjem stolpcev:

Fiksni stolpci OO: odstranjeni
Stolpci z odprtim besedilom: ostali surovi
Trditev: "Stolpci OO izbrisani"
OO, ki je ostalo: 47 poimenovanih oseb, 23 e-postnih naslovov v komentarjih, 18 krajevnih imen, ki bi lahko identificirala anketirance

Z zaznavanjem na podlagi NLP:

Fiksni stolpci OO: zamenjani z doslednimi znaki
Stolpci z odprtim besedilom: 47 imen zamenjanih, 23 e-post zamaskiranih, 18 krajevnih imen sploscenih ("Bolnisnica Golnik" -> "[Zdravstvena Institucija]")
Rezultat: datoteka, ki prestane uvodno navedbo 26 GDPR
Eticni odbor je odobril metodo
DPO je potrdil skladnost z DSA

Vrzel je resnin. Prvi izhod izgleda cist. Drugi izhod je cist.

Petkoracni Protokol pred Deljenjem

Uporabite te korake, preden delite katero koli anketo ali datoteko intervjuja.

Korak 1: Oznacite vsak stolpec Vsak stolpec oznacite kot fiksni OO, fiksni ne-OO ali odprto besedilo. Zapisite to.

Korak 2: Obravnavajte fiksni OO Izbrisite vnose, ki niso potrebni za analizo. Zamenjajte vnose, potrebne za povezovanje zapisov. Zapisite uporabljene kode.

Korak 3: Skeniranje stolpcev z odprtim besedilom Na vseh stolpcih z odprtim besedilom zazenite zaznavanje NLP. Preglejte vsak rezultat. Potrdite, kateri so pravi OO.

Korak 4: Apliciranje zamenjav Zamenjajte potrjene OO v izhodu z odprtim besedilom. Uporabite jasne oznake, kot so [OSEBA], [E-POSTA] ali [LOKACIJA].

Korak 5: Preverite in dokumentirajte V izhodu vzorcno preglejte 50--100 vrstic. Preverite vnose z odprtim besedilom rocno. Napisite kratek povzetek: orodja, ki so bila uporabljena, najdene vrste entitet, obdelani stolpci. Delite ga z datoteko za pregled eticnega odbora.

To "izbrisali smo stolpec z imeni" pretvori v jasen, dokumentiran postopek. Izpolnjuje clen 89 GDPR in standarde anonimizacije, ki jih zahteva vecina eticnih odborov. Obisc ite nas center za dokumente za sorodne vodnike.

Viri

Clen 89 GDPR: Zavarovalke za Znanstvene Raziskave -- VERIFIED-EXTERNAL
Uvodna navedba 26 GDPR: Nacel o Anonimizaciji -- VERIFIED-EXTERNAL
ICO: Anonimizacija in Tveganje Varstva Podatkov -- VERIFIED-EXTERNAL

Sorodni članki

GDPR in skladnost

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

Začnite brezplačno preizkušnjo Ogled funkcij

OO v Prostem Besedilu CSV: Onkraj Brisanja Stolpcev

Vrzel, ki jo Brisanje Stolpcev Zamudi

Zakaj Je Odprto Besedilo Tako Tezko Ocistiti

Pravi Primer Treh Univerz

Petkoracni Protokol pred Deljenjem

Viri

Sorodni članki

Lastno gostovani PII ne prestane revizij skladnosti

Presidio spregleda 220+ entitet GDPR

Zdrsel konfiguracije: Skrito tveganje GDPR

Ste pripravljeni zaščititi svoje podatke?

OO v Prostem Besedilu CSV: Onkraj Brisanja Stolpcev

Vrzel, ki jo Brisanje Stolpcev Zamudi

Zakaj To ne Izpolnjuje Standarda GDPR

Zakaj Je Odprto Besedilo Tako Tezko Ocistiti

Pravi Primer Treh Univerz

Petkoracni Protokol pred Deljenjem

Viri

Sorodni članki

Lastno gostovani PII ne prestane revizij skladnosti

Presidio spregleda 220+ entitet GDPR

Zdrsel konfiguracije: Skrito tveganje GDPR

Ste pripravljeni zaščititi svoje podatke?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow