Nepilnība, ko kolonnu dzēšana palaiž garām
Atjaunināts 2026. gadam
Pētijumu datu kopas pārvietojas starp universitātēm kā CSV faili. Kad komandas sagatavo CSV kopīgošanai, darbs ir balstīts uz kolonnām. Atrodiet personas informāciju. Dzēsiet vai aizstājiet to.
Šī metode darbojas fiksētajiem laukiem. Kolonna ar nosaukumu "e-pasts" glabā e-pasta adreses — dzēsiet to. Kolonna ar nosaukumu "tālrunis" glabā tālruņa numurus — dzēsiet to. Kolonna ar nosaukumu "dalibnieka_vārds" glabā vārdus — aizstājiet to ar kodu.
Bet brīvā teksta atbilžu kolonnas ir aklā zona. Marķētu kolonnu noņemšana tās neskar.
Aptauja ar 5 000 rindām var saturēt piecas strukturētās PII kolonnas un piecpadsmit atvērtā teksta atbilžu kolonnas. Strukturētajās glabājas vārdi, e-pasti, tālruņa numuri, ID un dzimšanas gadi. Atvērtā teksta glabājas komentāri, piezīmes un ieteikumi.
Strukturētās kolonnas tiek notīrītas. Atvērtā teksta kolonnas paliek neapstrādātas. Bet cilvēki raksta tādas lietas kā šie trīs piemēri.
Pirmais: "Mans ārsts no Boston Medical Center, Dr. Maria Santos, teica, ka ārstēšana ir jauna." Otrais: "Esmu ar to saskāries kopš 2019. gada negadijuma." Trešais: "Jūs varat sazināties ar manu aprūpētāju margaret.wells@gmail.com, lai iegūtu sīkāku informāciju."
Katrs ieraksts nosauc reālu personu. Daži ietver veselības faktus vai kontaktinformāciju. Nekas no tā neparādās kolonnas galvenē. Nekas no tā netiek notverts ar kolonnu dzēšanu.
Kāpēc tas neatbilst GDPR standartam
GDPR Recitāls 26 definē anonīmus ierakstus kā ierakstus, kurus nevar saistīt ar nevienu personu. Latiņa ir augsta. Ieraksti ir patiesi anonīmi tikai tad, kad atkārtota identifikācija nav saprātīgi iespējama.
CSV fails ar tīrām fiksētajām kolonnām, bet nosauktiem cilvēkiem atvērtajā tekstā, neiztur šo pārbaudi. Tie vārdi ir identificējami. Datu kopa joprojām ir personiska. GDPR 89. panta noteikumi joprojām attiecas. Tādejādi rodas trīs riski.
89. panta pētijumu izņēmums: 89. pants ļauj pētniekiem apstrādāt personisku informāciju zinātnei ar mazākiem pienākumiem. Bet tikai tur, kur pastāv "atbilstošas aizsardzības garantijas". Faila kopīgošana ar atvērtā teksta PII, apgalvojot 89. panta aizsardzību, ir juridiskā neveiksmiga.
Ētikas apstiprinājums: Lielākā daļa IRB un ētikas komiteju prasa pilnu anonimizāciju kopīgotajiem datu kopumiem. Daļējs darbs — fiksētas kolonnas notīrītas, atvērtais teksts palicis neapstrādāts — parasti neizdodas. Komiteja var noraidīt iesniegumu.
Datu kopīgošanas līgumi: DSA starp iestādēm nosaka nepieciešamo anonimizācijas līmeni. Daļējs darbs, kas neiztur GDPR Recitālu 26, var pārkāpt DSA. Skatiet mūsu Juridiskās atbilstības pārskatu par to, kā tas iederas plašākā programmā.
Kāpēc atvērtais teksts ir tik grūti notīrāms
Brīvā teksta aptaujas atbildes ir no grūtākajiem PII mērķiem. Lūk, kāpēc.
Vārdi kontekstā: "Dr. Maria Santos no Boston Medical Center" prasa nosaukto entītiju atpazīšanu (NER), lai atzīmētu personu un organizāciju. Atslēgvārdu saraksti to nevar atrast.
Vārdi stāstos: "Džona Hendersona auto trāpija manējo" ievieto reālu vārdu stāstā. Tā ir persona, kas nosaukta mimogus. Tikai NER to notverId.
Nestandarta formāti: Kontaktinformācija var lasīties "sazinieties ar mani pie margaret point wells pie gmail". Vienkāršie regex rīki to palaiž garām.
Pētijumam specifiskie termini: Klīniskās aptaujas bieži satur slimnīcas ID, vietas kodus un vietu vārdus. Tie var identificēt personu pat tad, kad izskatās vispārīgi.
Tādejādi tikai modeļu sakritība nav pietiekama. NLP balstīti rīki ir nepieciešami reālai aptaujas anonimizācijai. Skatiet Drošību un atbilstību par tehniskajām iespējām.
Reāls piemērs no trim universitātēm
Pētijumu komanda trim Eiropas universitātēs veica pacientu pieredzes aptauju. Datu kopā bija 5 000 respondentu, 3 fiksētās PII kolonnas un 8 atvērtā teksta kolonnas. Plāns bija kopīgot failu starp vietam saskaņā ar DSA un GDPR 89. pantu.
Ar tikai kolonnu dzēšanu:
- Fiksētās PII kolonnas: noņemtas
- Atvērtā teksta kolonnas: palika neapstrādātas
- Apgalvojums: "PII kolonnas dzēstas"
- Atstāts PII: 47 nosauktas personas, 23 e-pasta adreses komentāros, 18 vietu vārdi, kas varētu identificēt respondentus
Ar NLP balstītu noteikšanu:
- Fiksētās PII kolonnas: aizstātas ar konsekventiem tokeneem
- Atvērtā teksta kolonnas: 47 vārdi aizstāti, 23 e-pasti maskēti, 18 vietu vārdi vispārināti ("Boston Medical Center" → "[Veselības aprūpes iestāde]")
- Rezultāts: fails, kas iztur GDPR Recitālu 26
- Ētikas komiteja apstiprināja metodi
- DPO apstiprināja DSA atbilstību
Nepilnība ir reāla. Pirmā izvade izskatās tīra. Otrā izvade ir tīra.
Piecu soļu protokols pirms kopīgošanas
Izmantojiet šos soļus pirms jebkuras aptaujas vai intervijas faila kopīgošanas.
1. solis: Marķējiet katru kolonnu Atzīmējiet katru kolonnu kā fiksētu PII, fiksētu ne-PII vai atvērtu tekstu. Pierakstiet to.
2. solis: Apstrādājiet fiksēto PII Dzēsiet ierakstus, kas nav nepieciešami analīzei. Aizstājiet ierakstus, kas nepieciešami ierakstu saistīšanai. Ierakstiet izmantotos kodus.
3. solis: Skenējiet atvērtā teksta kolonnas Palaidiet NLP noteikšanu visās atvērtā teksta kolonnās. Pārskatiet katru rezultātu. Apstipriniet, kuri ir reāls PII.
4. solis: Pielietojiet aizstāšanas
Aizstājiet apstiprināto PII atvērtā teksta izvadē. Izmantojiet skaidras etiķetes, piemēram, [PERSONA], [E-PASTS] vai [ATRAŠANĀS VIETA].
5. solis: Verificējiet un dokumentējiet Paraugojiet 50–100 rindas no izvades. Pārbaudiet atvērtā teksta ierakstus ar roku. Uzrakstiet īsu kopsavilkumu: izmantotie rīki, atrastie entītiju veidi, apstrādātās kolonnas. Kopīgojiet to ar failu ētikas pārskatīšanai.
Tas pārvērš "mēs dzēsām vārdu kolonnu" par skaidru, dokumentētu procesu. Tas atbilst GDPR 89. pantam un anonimizācijas standartiem, ko prasa lielākā daļa ētikas komiteju. Apmeklējiet mūsu dokumentācijas centru par saistītajiem ceļvežiem.