Nepilnība, ko kolonnu dzēšana palaiž garām

Atjaunināts 2026. gadam

Pētijumu datu kopas pārvietojas starp universitātēm kā CSV faili. Kad komandas sagatavo CSV kopīgošanai, darbs ir balstīts uz kolonnām. Atrodiet personas informāciju. Dzēsiet vai aizstājiet to.

Šī metode darbojas fiksētajiem laukiem. Kolonna ar nosaukumu "e-pasts" glabā e-pasta adreses — dzēsiet to. Kolonna ar nosaukumu "tālrunis" glabā tālruņa numurus — dzēsiet to. Kolonna ar nosaukumu "dalibnieka_vārds" glabā vārdus — aizstājiet to ar kodu.

Bet brīvā teksta atbilžu kolonnas ir aklā zona. Marķētu kolonnu noņemšana tās neskar.

Aptauja ar 5 000 rindām var saturēt piecas strukturētās PII kolonnas un piecpadsmit atvērtā teksta atbilžu kolonnas. Strukturētajās glabājas vārdi, e-pasti, tālruņa numuri, ID un dzimšanas gadi. Atvērtā teksta glabājas komentāri, piezīmes un ieteikumi.

Strukturētās kolonnas tiek notīrītas. Atvērtā teksta kolonnas paliek neapstrādātas. Bet cilvēki raksta tādas lietas kā šie trīs piemēri.

Pirmais: "Mans ārsts no Boston Medical Center, Dr. Maria Santos, teica, ka ārstēšana ir jauna." Otrais: "Esmu ar to saskāries kopš 2019. gada negadijuma." Trešais: "Jūs varat sazināties ar manu aprūpētāju margaret.wells@gmail.com, lai iegūtu sīkāku informāciju."

Katrs ieraksts nosauc reālu personu. Daži ietver veselības faktus vai kontaktinformāciju. Nekas no tā neparādās kolonnas galvenē. Nekas no tā netiek notverts ar kolonnu dzēšanu.

GDPR Recitāls 26 definē anonīmus ierakstus kā ierakstus, kurus nevar saistīt ar nevienu personu. Latiņa ir augsta. Ieraksti ir patiesi anonīmi tikai tad, kad atkārtota identifikācija nav saprātīgi iespējama.

CSV fails ar tīrām fiksētajām kolonnām, bet nosauktiem cilvēkiem atvērtajā tekstā, neiztur šo pārbaudi. Tie vārdi ir identificējami. Datu kopa joprojām ir personiska. GDPR 89. panta noteikumi joprojām attiecas. Tādejādi rodas trīs riski.

89. panta pētijumu izņēmums: 89. pants ļauj pētniekiem apstrādāt personisku informāciju zinātnei ar mazākiem pienākumiem. Bet tikai tur, kur pastāv "atbilstošas aizsardzības garantijas". Faila kopīgošana ar atvērtā teksta PII, apgalvojot 89. panta aizsardzību, ir juridiskā neveiksmiga.

Ētikas apstiprinājums: Lielākā daļa IRB un ētikas komiteju prasa pilnu anonimizāciju kopīgotajiem datu kopumiem. Daļējs darbs — fiksētas kolonnas notīrītas, atvērtais teksts palicis neapstrādāts — parasti neizdodas. Komiteja var noraidīt iesniegumu.

Datu kopīgošanas līgumi: DSA starp iestādēm nosaka nepieciešamo anonimizācijas līmeni. Daļējs darbs, kas neiztur GDPR Recitālu 26, var pārkāpt DSA. Skatiet mūsu Juridiskās atbilstības pārskatu par to, kā tas iederas plašākā programmā.

Kāpēc atvērtais teksts ir tik grūti notīrāms

Brīvā teksta aptaujas atbildes ir no grūtākajiem PII mērķiem. Lūk, kāpēc.

Vārdi kontekstā: "Dr. Maria Santos no Boston Medical Center" prasa nosaukto entītiju atpazīšanu (NER), lai atzīmētu personu un organizāciju. Atslēgvārdu saraksti to nevar atrast.

Vārdi stāstos: "Džona Hendersona auto trāpija manējo" ievieto reālu vārdu stāstā. Tā ir persona, kas nosaukta mimogus. Tikai NER to notverId.

Nestandarta formāti: Kontaktinformācija var lasīties "sazinieties ar mani pie margaret point wells pie gmail". Vienkāršie regex rīki to palaiž garām.

Pētijumam specifiskie termini: Klīniskās aptaujas bieži satur slimnīcas ID, vietas kodus un vietu vārdus. Tie var identificēt personu pat tad, kad izskatās vispārīgi.

Tādejādi tikai modeļu sakritība nav pietiekama. NLP balstīti rīki ir nepieciešami reālai aptaujas anonimizācijai. Skatiet Drošību un atbilstību par tehniskajām iespējām.

Reāls piemērs no trim universitātēm

Pētijumu komanda trim Eiropas universitātēs veica pacientu pieredzes aptauju. Datu kopā bija 5 000 respondentu, 3 fiksētās PII kolonnas un 8 atvērtā teksta kolonnas. Plāns bija kopīgot failu starp vietam saskaņā ar DSA un GDPR 89. pantu.

Ar tikai kolonnu dzēšanu:

Fiksētās PII kolonnas: noņemtas
Atvērtā teksta kolonnas: palika neapstrādātas
Apgalvojums: "PII kolonnas dzēstas"
Atstāts PII: 47 nosauktas personas, 23 e-pasta adreses komentāros, 18 vietu vārdi, kas varētu identificēt respondentus

Ar NLP balstītu noteikšanu:

Fiksētās PII kolonnas: aizstātas ar konsekventiem tokeneem
Atvērtā teksta kolonnas: 47 vārdi aizstāti, 23 e-pasti maskēti, 18 vietu vārdi vispārināti ("Boston Medical Center" → "[Veselības aprūpes iestāde]")
Rezultāts: fails, kas iztur GDPR Recitālu 26
Ētikas komiteja apstiprināja metodi
DPO apstiprināja DSA atbilstību

Nepilnība ir reāla. Pirmā izvade izskatās tīra. Otrā izvade ir tīra.

Piecu soļu protokols pirms kopīgošanas

Izmantojiet šos soļus pirms jebkuras aptaujas vai intervijas faila kopīgošanas.

1. solis: Marķējiet katru kolonnu Atzīmējiet katru kolonnu kā fiksētu PII, fiksētu ne-PII vai atvērtu tekstu. Pierakstiet to.

2. solis: Apstrādājiet fiksēto PII Dzēsiet ierakstus, kas nav nepieciešami analīzei. Aizstājiet ierakstus, kas nepieciešami ierakstu saistīšanai. Ierakstiet izmantotos kodus.

3. solis: Skenējiet atvērtā teksta kolonnas Palaidiet NLP noteikšanu visās atvērtā teksta kolonnās. Pārskatiet katru rezultātu. Apstipriniet, kuri ir reāls PII.

4. solis: Pielietojiet aizstāšanas Aizstājiet apstiprināto PII atvērtā teksta izvadē. Izmantojiet skaidras etiķetes, piemēram, [PERSONA], [E-PASTS] vai [ATRAŠANĀS VIETA].

5. solis: Verificējiet un dokumentējiet Paraugojiet 50–100 rindas no izvades. Pārbaudiet atvērtā teksta ierakstus ar roku. Uzrakstiet īsu kopsavilkumu: izmantotie rīki, atrastie entītiju veidi, apstrādātās kolonnas. Kopīgojiet to ar failu ētikas pārskatīšanai.

Tas pārvērš "mēs dzēsām vārdu kolonnu" par skaidru, dokumentētu procesu. Tas atbilst GDPR 89. pantam un anonimizācijas standartiem, ko prasa lielākā daļa ētikas komiteju. Apmeklējiet mūsu dokumentācijas centru par saistītajiem ceļvežiem.

Avoti

Saistītie Raksti

GDPR un Atbilstība

Vai esat gatavi aizsargāt savus datus?

Sāciet PII anonimizāciju ar 285+ entitāšu veidiem 48 valodās.

Sākt Bezmaksas Izmēģinājumu Skatīt Funkcijas

CSV brīvā teksta PII: tālāk par kolonnu dzēšanu

Nepilnība, ko kolonnu dzēšana palaiž garām

Kāpēc atvērtais teksts ir tik grūti notīrāms

Reāls piemērs no trim universitātēm

Piecu soļu protokols pirms kopīgošanas

Avoti

Saistītie Raksti

Pašhostēti PII rīki neiztur atbilstības auditus

Presidio palaiž garām 220+ GDPR entītijas

Konfigurācijas novirze: slēpts GDPR risks

Vai esat gatavi aizsargāt savus datus?

CSV brīvā teksta PII: tālāk par kolonnu dzēšanu

Nepilnība, ko kolonnu dzēšana palaiž garām

Kāpēc tas neatbilst GDPR standartam

Kāpēc atvērtais teksts ir tik grūti notīrāms

Reāls piemērs no trim universitātēm

Piecu soļu protokols pirms kopīgošanas

Avoti

Saistītie Raksti

Pašhostēti PII rīki neiztur atbilstības auditus

Presidio palaiž garām 220+ GDPR entītijas

Konfigurācijas novirze: slēpts GDPR risks

Vai esat gatavi aizsargāt savus datus?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow