Spraga, kurią praleidžia stulpelių ištrynimas

Atnaujinta 2026 m.

Tyrimų duomenų rinkiniai juda tarp universitetų CSV failais. Kai komandos ruošia CSV bendrinimui, darbas yra stulpeliais pagrįstas. Raskite asmens informaciją. Ištrinkite ar pakeiskite ją.

Tas metodas veikia fiksuotiems laukams. Stulpelis, pavadintas "el. paštas", laiko el. pašto adresus - ištrinkite jį. Stulpelis, pavadintas "telefonas", laiko telefono numerius - ištrinkite jį. Stulpelis, pavadintas "dalyvio_vardas", laiko vardus - pakeiskite jį kodu.

Tačiau laisvojo teksto atsakymų stulpeliai yra aklas taškas. Pažymėtų stulpelių šalinimas jų nepalies.

Apklausa su 5 000 eilučių gali turėti penkis struktūrizuotus asmens duomenų stulpelius ir penkiolika atvirojo teksto atsakymų stulpelių. Struktūrizuoti laiko vardus, el. paštus, telefono numerius, ID ir gimimo metus. Atvirojo teksto laiko komentarus, pastabas ir pasiūlymus.

Struktūrizuoti stulpeliai išvalomi. Atvirojo teksto stulpeliai lieka neapdoroti. Tačiau žmonės rašo tokius dalykus kaip šie trys pavyzdžiai.

Pirmasis: "Mano gydytojas Bostono medicinos centre, daktarė Maria Santos, sakė, kad gydymas yra naujas." Antrasis: "Su tuo tvarkiausi nuo 2019 m. avarijos." Trečiasis: "Galite susisiekti su mano globėju margaret.wells@gmail.com dėl detalių."

Kiekvienas įrašas įvardija tikrą asmenį. Kai kurie apima sveikatos faktus ar kontaktinę informaciją. Niekas iš to nepasirodo stulpelio antraštėje. Niekas iš to nepastebima stulpelių ištrynimo.

Kodėl tai neatitinka BDAR standarto

BDAR 26 konstatuojamoji dalis apibrėžia anoniminius įrašus kaip įrašus, kurių negalima susieti su jokiu asmeniu. Riba yra aukšta. Įrašai yra tikrai anoniminiai tik tada, kai pakartotinė identifikacija nėra pagrįstai įmanoma.

CSV su švariais fiksuotais stulpeliais, bet įvardintais žmonėmis atvirojo teksto, nepraeina to testo. Tie vardai yra identifikuojami. Duomenų rinkinys vis dar yra asmens duomenys. BDAR 89 straipsnio taisyklės vis dar taikomos. Todėl iškyla trys rizikos.

89 straipsnio mokslinių tyrimų išimtis: 89 straipsnis leidžia tyrėjams tvarkyti asmens informaciją mokslui su mažiau pareigų. Tačiau tik ten, kur egzistuoja "tinkamos apsaugos priemonės". Failo su atvirojo teksto asmens duomenimis dalijimasis, teigiant 89 straipsnio apsaugą, yra teisinis nesėkmingas.

Etikos patvirtinimas: Dauguma IRB ir etikos komitetų reikalauja visiško anonimizavimo bendrinamiems duomenų rinkiniams. Dalinis darbas - fiksuoti stulpeliai išvalomi, atvirasis tekstas paliktas neapdorotas - paprastai žlunga. Komitetas gali atmesti pateikimą.

Duomenų dalijimosi sutartys: DSS tarp institucijų nustato reikalaujamą anonimizavimo lygį. Dalinis darbas, nepraeinantis BDAR 26 konstatuojamosios dalies, gali pažeisti DSS. Žiūrėkite mūsų teisinės atitikties apžvalgą kaip tai tinka platesnei programai.

Kodėl atvirojo teksto valymas yra toks sunkus

Laisvojo teksto apklausų atsakymai yra vieni sunkiausių asmens duomenų taikinių. Štai kodėl.

Vardai kontekste: "Daktarė Maria Santos Bostono medicinos centre" reikalauja įvardintų objektų atpažinimo (NER) asmeniui ir organizacijai pažymėti. Raktinių žodžių sąrašai to neranda.

Vardai istorijose: "Jono Hendersono automobilis mane trenkė" įdeda tikrą vardą į istoriją. Tai praeinamas vardu minimas asmuo. Tik NER jį pagauna.

Nestandartiniai formatai: Kontaktinė informacija gali skambėti "susisiekite su manimi margaret taškas wells etas gmail." Paprastos reguliariosios išraiškos įrankiai tai praleidžia.

Tyrimams būdingi terminai: Klinikiniai tyrimai dažnai turi ligoninių ID, vietos kodus ir vietovių pavadinimus. Jie gali identifikuoti asmenį net tada, kai atrodo bendrai.

Taigi vien šablonų atitikimo nepakanka. NLP pagrįsti įrankiai reikalingi tikram apklausų anonimizavimui. Žiūrėkite Saugumas ir atitiktis dėl techninių galimybių.

Tikras pavyzdys iš trijų universitetų

Trijų Europos universitetų tyrimo komanda vykdė pacientų patirties apklausą. Duomenų rinkinys turėjo 5 000 respondentų, 3 fiksuotus asmens duomenų stulpelius ir 8 atvirojo teksto stulpelius. Planas buvo bendrinti failą per vietas pagal DSS ir BDAR 89 straipsnį.

Tik stulpelių ištrynimo atveju:

Fiksuoti asmens duomenų stulpeliai: pašalinti
Atvirojo teksto stulpeliai: palikti neapdoroti
Teiginys: "asmens duomenų stulpeliai ištrinti"
Asmens duomenys, palikti: 47 įvardinti asmenys, 23 el. pašto adresai komentaruose, 18 vietos pavadinimų, galinčių identifikuoti respondentus

Su NLP pagrįstu aptikimu:

Fiksuoti asmens duomenų stulpeliai: pakeisti nuosekliais prieketais
Atvirojo teksto stulpeliai: 47 vardai pakeisti, 23 el. paštai užmaskuoti, 18 vietos pavadinimų padaryta bendrais ("Bostono medicinos centras" - "[Sveikatos priežiūros institucija]")
Rezultatas: failas, praeinantis BDAR 26 konstatuojamąją dalį
Etikos komitetas patvirtino metodą
DPO patvirtino DSS atitiktį

Spraga yra reali. Pirmas rezultatas atrodo švarus. Antras rezultatas yra švarus.

Penkių žingsnių protokolas prieš bendrinimą

Naudokite šiuos žingsnius prieš bendrindami bet kurį apklausos ar interviu failą.

1 žingsnis: Pažymėkite kiekvieną stulpelį Pažymėkite kiekvieną stulpelį kaip fiksuotus asmens duomenis, fiksuotus ne asmens duomenis ar atvirąjį tekstą. Užrašykite.

2 žingsnis: Tvarkykite fiksuotus asmens duomenis Ištrinkite įrašus, nereikalingus analizei. Pakeiskite įrašus, reikalingus įrašų susiejimui. Įrašykite naudojamus kodus.

3 žingsnis: Nuskaitykite atvirojo teksto stulpelius Vykdykite NLP aptikimą visuose atvirojo teksto stulpeliuose. Peržiūrėkite kiekvieną rezultatą. Patvirtinkite, kurie yra tikri asmens duomenys.

4 žingsnis: Taikykite pakeitimus Pakeiskite patvirtintus asmens duomenis atvirojo teksto išvestyje. Naudokite aiškias etiketes, tokias kaip [ASMUO], [EL. PASTAS] ar [VIETA].

5 žingsnis: Patikrinkite ir dokumentuokite Paimkite 50-100 eilučių pavyzdį iš išvesties. Patikrinkite atvirojo teksto įrašus ranka. Parašykite trumpą santrauką: naudoti įrankiai, rasti objektų tipai, apdoroti stulpeliai. Bendrinkite ją su failu etikos peržiūrai.

Tai paverčia "mes ištrynėme vardo stulpelį" aiškiu, dokumentuotu procesu. Tai atitinka BDAR 89 straipsnį ir daugumos etikos komitetų reikalaujamus anonimizavimo standartus. Apsilankykite mūsų dokumentacijos centre dėl susijusių vadovų.

Šaltiniai

Susiję Straipsniai

GDPR ir Atitiktis

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

Pradėti Nemokamą Bandomąją Versiją Peržiūrėti Funkcijas

CSV laisvojo teksto asmens duomenys: anapus stulpelių ištrynimo

Spraga, kurią praleidžia stulpelių ištrynimas

Kodėl tai neatitinka BDAR standarto

Kodėl atvirojo teksto valymas yra toks sunkus

Tikras pavyzdys iš trijų universitetų

Penkių žingsnių protokolas prieš bendrinimą

Šaltiniai

Susiję Straipsniai

Savęs talpinamas PII nepavyksta atitikties auditams

Presidio praleidžia 220+ BDAR objektus

Konfigūracijos nuokrypis: paslėpta BDAR rizika

Pasiruošę apsaugoti savo duomenis?

CSV laisvojo teksto asmens duomenys: anapus stulpelių ištrynimo

Spraga, kurią praleidžia stulpelių ištrynimas

Kodėl tai neatitinka BDAR standarto

Kodėl atvirojo teksto valymas yra toks sunkus

Tikras pavyzdys iš trijų universitetų

Penkių žingsnių protokolas prieš bendrinimą

Šaltiniai

Susiję Straipsniai

Savęs talpinamas PII nepavyksta atitikties auditams

Presidio praleidžia 220+ BDAR objektus

Konfigūracijos nuokrypis: paslėpta BDAR rizika

Pasiruošę apsaugoti savo duomenis?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow