Die Leemte Wat Kolomverwydering Mis
Bygewerk vir 2026
Navorsing-datastelle beweeg tussen universiteite as CSV-leers. Wanneer spanne 'n CSV vir deling voorberei, is die werk kolomgebaseer. Vind die persoonlike inligting. Verwyder of vervang dit.
Hierdie metode werk vir vaste velde. 'n Kolom genaamd 'e-pos' bevat e-posadresse -- verwyder dit. 'n Kolom genaamd 'foon' bevat telefoonnommers -- verwyder dit. 'n Kolom genaamd 'deelnemer_naam' bevat name -- ruil dit vir 'n kode.
Maar vryeteks-antwoordkolomme is 'n blinde vlek. Die verwydering van gemerkte kolomme raak hulle nie aan nie.
'n Opname met 5 000 rye kan vyf gestruktureerde PII-kolomme en vyftien oop-teks-antwoordkolomme he. Die gestruktureerde ones bevat name, e-posse, telefoonnommers, ID's en geboortejare. Die oop-teks-ones bevat kommentaar, notas en voorstelle.
Die gestruktureerde kolomme word skoongemaak. Die oop-teks-kolomme bly rou. Maar mense skryf sulke dinge as hierdie drie voorbeelde.
Eerste: 'My dokter by Boston Medical Center, Dr. Maria Santos, het gese die behandeling was nuut.' Tweede: 'Ek het hiermee te doen gehad sedert my 2019-ongeluk.' Derde: 'U kan my versorger by margaret.wells@gmail.com bereik vir besonderhede.'
Elke inskrywing noem 'n werklike persoon. Sommige sluit gesondheidsfeite of kontakinfo in. Niks hiervan verskyn in 'n kolomopskrif nie. Niks word deur kolomverwydering gevang nie.
Waarom Dit Die GDPR-standaard Misluk
GDPR Oorweging 26 definieer anonieme rekords as rekords wat nie aan enige persoon geskakel kan word nie. Die drempel is hoog. Rekords is slegs werklik anoniem wanneer heridentifikasie nie redelikerwys moontlik is nie.
'n CSV met skoon vaste kolomme maar genoemde mense in oop-teks voldoen nie aan hierdie toets nie. Hierdie name is identifiseerbaar. Die datastel is steeds persoonlik. GDPR Artikel 89-reels geld steeds. So ontstaan hierdie drie risiko's.
Artikel 89 navorsings-uitsondering: Artikel 89 laat navorsers toe om persoonlike inligting vir wetenskap met minder verpligtinge te verwerk. Maar slegs waar 'gepaste waarborgde' bestaan. Die deling van 'n leer met oop-teks-PII terwyl Artikel 89-dekking geeis word, is 'n regsversaking.
Etieksgoedkeuring: Die meeste IRB's en etieksrade vereis volle anonimisering vir gedeelde datastelle. Gedeeltelike werk -- vaste kolomme skoongemaak, oop-teks rou gelaat -- misluk tipies. Die raad kan die inskrywing verwerp.
Datadelingooreenkomste: DSA's tussen instellings stel die vereiste anonimiseringsvlak. Gedeeltelike werk wat GDPR Oorweging 26 misluk, kan die DSA skend. Sien ons Regsnakoming-oorsig vir hoe dit in 'n breere program pas.
Waarom Oop-teks So Moeilik is om Skoon te Maak
Vryeteks-opname-antwoorde is van die moeilikste PII-teikens. Hier is hoekom.
Name in konteks: 'Dr. Maria Santos by Boston Medical Center' vereis benoemde entiteitsherkenning (NER) om 'n persoon en 'n organisasie te merk. Sleutelwoordlyste kan dit nie vind nie.
Name in stories: 'John Henderson se kar het myne getref' plaas 'n werklike naam in 'n verhaal. Dit is 'n persoon wat in die verbygaan genoem word. Slegs NER vang dit.
Nie-standaard formate: Kontakinfo kan lees: 'bereik my by margaret punt wells by gmail.' Eenvoudige regex-instrumente mis hierdie.
Navorsing-spesifieke terme: Kliniese opnames bevat dikwels hospitaal-ID's, terrein-kodes en plekname. Hierdie kan 'n persoon identifiseer selfs as dit generies lyk.
Patroonpassing alleen is dus nie genoeg nie. NLP-gebaseerde instrumente is nodig vir werklike opname-anonimisering. Sien Veiligheid en Nakoming vir tegniese opsies.
'n Werklike Voorbeeld van Drie Universiteite
'n Navorsingsspan by drie Europese universiteite het 'n patiente-ervaringopname geloods. Die datastel het 5 000 respondente, 3 vaste PII-kolomme en 8 oop-teks-kolomme gehad. Die plan was om die leer oor terreine te deel onder 'n DSA en GDPR Artikel 89.
Met kolomverwydering slegs:
- Vaste PII-kolomme: verwyder
- Oop-teks-kolomme: rou gelaat
- Bewering: 'PII-kolomme verwyder'
- PII agtergelaat: 47 genoemde mense, 23 e-posadresse in kommentaar, 18 plekname wat respondente kan identifiseer
Met NLP-gebaseerde opsporing:
- Vaste PII-kolomme: vervang met konsekwente tekens
- Oop-teks-kolomme: 47 name vervang, 23 e-posse gemaskeer, 18 plekname generies gemaak ('Boston Medical Center' -> '[Gesondheidsinstelling]')
- Resultaat: 'n leer wat GDPR Oorweging 26 slaag
- Etieksraad het die metode goedgekeur
- DPO het DSA-nakoming bevestig
Die leemte is werklik. Die eerste uitset lyk skoon. Die tweede uitset is skoon.
'n Vyfstap-voordelings-protokol
Gebruik hierdie stappe voor die deling van enige opname- of onderhoudleer.
Stap 1: Merk elke kolom Merk elke kolom as vaste PII, vaste nie-PII of oop-teks. Skryf dit neer.
Stap 2: Hanteer vaste PII Verwyder inskrywings wat nie vir analise benodig word nie. Vervang inskrywings wat nodig is vir rekordkoppeling. Teken die kodes gebruik.
Stap 3: Skandeer oop-teks-kolomme Loop NLP-opsporing op alle oop-teks-kolomme. Hersien elke resultaat. Bevestig watter werklike PII is.
Stap 4: Pas vervangings toe
Vervang bevestigde PII in die oop-teks-uitset. Gebruik duidelike etikette soos [PERSOON], [E-POS] of [LIGGING].
Stap 5: Verifieer en dokumenteer Monstering 50-100 rye uit die uitset. Kontroleer die oop-teks-inskrywings met die hand. Skryf 'n kort opsomming: gereedskap gebruik, entiteitstipes gevind, kolomme verwerk. Deel dit saam met die leer vir etiekshersiening.
Dit verander 'ons het die naamkolom verwyder' in 'n duidelike, gedokumenteerde proses. Dit voldoen aan GDPR Artikel 89 en die anonimiseringstandaarde wat die meeste etieksrade vereis. Besoek ons dokumentasiesenter vir verwante gidse.
Bronne
- GDPR Artikel 89: Waarborgde vir Wetenskaplike Navorsing -- GEVERIFIEER-EKSTERN
- GDPR Oorweging 26: Anonimiseringsprinsipe -- GEVERIFIEER-EKSTERN
- ICO: Anonimisering en Databeskermingsrisiko -- GEVERIFIEER-EKSTERN