Praznina koju brisanje kolona propusta
Azurirano za 2026. godinu
Istrazivacki skupovi podataka se premestu izmedju univerziteta kao CSV datoteke. Kada timovi pripremaju CSV za deljenje, rad je zasnovan na kolonama. Pronadjite licne podatke. Obrisite ili zamenite ih.
Ta metoda funkcionise za fiksna polja. Kolona nazvana "email" sadrzi email adrese — obrisite je. Kolona nazvana "telefon" sadrzi brojeve telefona — obrisite je. Kolona nazvana "ime_ucesnika" sadrzi imena — zamanite je sifrom.
Ali kolone sa odgovorima slobodnog teksta su slepa tacka. Uklanjanje obelezenih kolona ih ne dotice.
Anketa sa 5.000 redova moze imati pet strukturisanih PII kolona i petnaest kolona sa odgovorima otvorenog tipa. Strukturisane sadrze imena, emailove, brojeve telefona, ID-ove i godine rodjenja. Otvorene sadrze komentare, napomene i sugestije.
Strukturisane kolone se ciste. Kolone otvorenog tipa ostaju u sirovom stanju. Ali ljudi pisu stvari poput ova tri primera.
Prvo: "Moj lekar na Klinickom centru Srbije, dr Marija Savic, rekla je da je tretman nov." Drugo: "S ovim se suocavam od nezgode 2019. godine." Trece: "Mozete kontaktirati mog negovatelja na milena.markovic@gmail.com za detalje."
Svaki unos imenuje stvarnu osobu. Neki ukljucuju zdravstvene cinjenice ili kontakt informacije. Nista od ovoga se ne pojavljuje u zaglavlju kolone. Nista od ovoga nije uhvaceno brisanjem kolona.
Zasto ovo ne ispunjava GDPR standard
GDPR Recital 26 definise anonimne zapise kao zapise koji ne mogu biti povezani sa bilo kojom osobom. Letva je visoka. Zapisi su zaista anonimni samo kada ponovna identifikacija nije razumno moguca.
CSV sa cistim fiksnim kolonama ali imenovanim osobama u otvorenom tekstu ne prolazi taj test. Ta imena su prepoznatljiva. Skup podataka je i dalje licne prirode. Pravila GDPR clana 89 se i dalje primenjuju. Iz toga nastaju ova tri rizika.
Izuzetak za istrazivanje prema clanu 89: Clan 89 dozvoljava istrazivacima da obradjuju licne podatke za nauku sa manje obaveza. Ali samo gde "odgovarajuce zastite" postoje. Deljenje datoteke sa PII u otvorenom tekstu uz zahtev pokrica clana 89 je pravni propust.
Eticki odobravanje: Vecina IRB-ova i etickih komisija zahteva potpunu anonimizaciju za deljene skupove podataka. Delimican rad — strukturisane kolone ociscene, otvoreni tekst ostavljen sirov — tipicno ne prolazi. Komisija moze odbaciti podnesak.
Sporazumi o deljenju podataka: SDP izmedju institucija postavljaju zahtevani nivo anonimizacije. Delimican rad koji ne ispunjava GDPR Recital 26 moze nkrsiti SDP. Pogledajte nas pregled pravne uskladjenosti za to kako ovo uklapa u siri program.
Zasto je otvoreni tekst toliko tezak za ciscenje
Odgovori ankete slobodnog teksta su jedni od najtezih PII ciljeva. Evo zasto.
Imena u kontekstu: "Dr Marija Savic na Klinickom centru Srbije" zahteva prepoznavanje imenskih entiteta (NER) da bi se oznacila osoba i organizacija. Liste kljucnih reci ne mogu ovo pronaci.
Imena u pricama: "Kola Jovana Petrovica su udarila moje" stavlja stvarno ime unutar price. To je osoba nazvana uzgred. Samo NER to hvata.
Nestandardni formati: Kontakt informacije mogu glasiti "kontaktirajte me na milena tacka markovic na gmail." Jednostavni regex alati propustaju ovo.
Istrazivacko-specificni termini: Klinicke ankete cesto sadrze bolnicke ID-ove, sifre lokacija i nazive mesta. Ovi mogu identificirati osobu cak i kada izgledaju genericko.
Dakle samo podudaranje obrazaca nije dovoljno. Alati zasnovani na NLP-u su potrebni za stvarnu anonimizaciju anketa. Pogledajte Bezbednost i uskladjenost za tehnicke opcije.
Stvarni primer sa tri univerziteta
Istrazivacki tim na tri evropska univerziteta sproveo je anketu o iskustvima pacijenata. Skup podataka je imao 5.000 ispitanika, 3 fiksne PII kolone i 8 kolona otvorenog teksta. Plan je bio deliti datoteku izmedju sajtova pod SDP i GDPR clanom 89.
Samo brisanjem kolona:
- Fiksne PII kolone: uklonjene
- Kolone otvorenog teksta: ostavljene sirove
- Tvrdnja: "PII kolone obrisane"
- PII koji je ostao: 47 imenovanih osoba, 23 email adrese u komentarima, 18 naziva mesta koji bi mogli identifikovati ispitanike
Sa NLP-zasnovanom detekcijom:
- Fiksne PII kolone: zamenjene konzistentnim tokenima
- Kolone otvorenog teksta: 47 imena zamenjena, 23 emaila maskirana, 18 naziva mesta ucinjeno generickim ("Klinicki centar Srbije" → "[Zdravstvena ustanova]")
- Rezultat: datoteka koja prolazi GDPR Recital 26
- Eticka komisija odobrila metod
- DPO potvrdio uskladjenost sa SDP
Praznina je stvarna. Prvi izlaz izgleda cisto. Drugi izlaz je zaista cist.
Petostepeni protokol pre deljenja
Koristite ove korake pre deljenja bilo koje ankete ili datoteke intervjua.
Korak 1: Oznacite svaku kolonu Oznacite svaku kolonu kao fiksni PII, fiksni non-PII ili otvoreni tekst. Zapisite to.
Korak 2: Obradite fiksni PII Obrisite unose koji nisu potrebni za analizu. Zamenite unose potrebne za povezivanje zapisa. Zabelezte koriscene sifre.
Korak 3: Skenirajte kolone otvorenog teksta Pokrenite NLP detekciju na svim kolonama otvorenog teksta. Pregledajte svaki rezultat. Potvrdite koji su zaista PII.
Korak 4: Primenite zamene
Zamenite potvrdeni PII u izlazu otvorenog teksta. Koristite jasne oznake kao sto su [PERSON], [EMAIL] ili [LOCATION].
Korak 5: Verifikujte i dokumentujte Uzorkujte 50–100 redova iz izlaza. Proverite rucno unose otvorenog teksta. Napisite kratak sazetak: korisceni alati, pronadjeni tipovi entiteta, obradene kolone. Delite ga sa datotekom za eticku reviziju.
Ovo pretvara "obrisali smo kolonu s imenima" u jasan, dokumentovan proces. Ispunjava GDPR clan 89 i standarde anonimizacije koje veca etickih komisija zahteva. Posetite nas centar za dokumentaciju za srodne vodicee.