Јазот Кој Бришењето на Колони го Пропушта
Ажурирано за 2026 година
Истражувачките групи на податоци се движат помеѓу универзитетите како CSV фајлови. Кога тимовите подготвуваат CSV за споделување, работата е базирана на колони. Пронајдете ги личните информации. Избришете ги или заменете ги.
Тој метод функционира за фиксни полиња. Колона наречена "е-пошта" содржи е-пошта адреси — избришете ја. Колона наречена "телефон" содржи телефонски броеви — избришете ја. Колона наречена "ime_ucesnika" содржи имиња — заменете ја со шифра.
Но колоните за одговори со слободен текст се слепа точка. Отстранувањето на означените колони не ги допира нив.
Анкета со 5.000 редови може да има пет структурирани PII колони и петнаесет колони за одговори со слободен текст. Структурираните содржат имиња, е-пошти, телефонски броеви, ID-а и години на раѓање. Оние со слободен текст содржат коментари, белешки и предлози.
Структурираните колони се исчистуваат. Колоните со слободен текст остануваат сурови. Но луѓето пишуваат вакви работи, три примери.
Прво: "Мојот лекар во Клиниката за внатрешни болести, д-р Марија Стојановска, рече дека третманот е нов." Второ: "Со ова се занимавам од мојата несреќа во 2019 година." Трето: "Можете да се обратите до мојот негувател на margaret.wells@gmail.com за детали."
Секој запис именува вистинско лице. Некои вклучуваат здравствени факти или контакт информации. Ниту едно од ова не се появува во заглавие на колона. Ниту едно не е фатено со бришење колони.
Зошто Ова Не го Задоволува GDPR Стандардот
GDPR Рецитал 26 ги дефинира анонимните записи како записи кои не можат да бидат поврзани со ниедно лице. Праговникот е висок. Записите се вистински анонимни само кога повторната идентификација не е разумно можна.
CSV со чисти фиксни колони, но именувани луѓе во слободен текст не го поминува тој тест. Тие имиња се идентификувачки. Наборот на податоци е сеуште личен. Правилата на GDPR Член 89 сеуште се применуваат. Така произлегуваат три ризика.
Истражувачко ослободување по Член 89: Член 89 им дозволува на истражувачите да обработуваат лични информации за наука со помалку должности. Но само каде постојат "соодветни заштитни мерки". Споделување фајл со слободен текст со лични податоци додека се тврди покриеност по Член 89 е правен неуспех.
Одобрување на етичка комисија: Повеќето ИРБ-и и етички одбори бараат целосна анонимизација за споделени групи на податоци. Делумната работа — фиксни колони исчистени, слободен текст оставен суров — обично не успева. Одборот може да ја отфрли поднесоката.
Договори за споделување податоци: ДСА-ите помеѓу институциите го поставуваат потребното ниво на анонимизација. Делумна работа која не го задоволува GDPR Рецитал 26 може да го прекрши ДСА. Видете го нашиот Преглед за правна усогласеност за тоа како ова се вклопува во поширока програма.
Зошто Слободниот Текст е Толку Тежок за Исчистување
Одговорите на анкети со слободен текст се меѓу најтешките цели за лични податоци. Еве зошто.
Имиња во контекст: "Д-р Марија Стојановска во Клиниката за внатрешни болести" бара препознавање на именувани ентитети (NER) за да означи лице и организација. Листите на клучни зборови не можат да го пронајдат тоа.
Имиња во приказни: "Автомобилот на Иван Петровски го удри мојот" поставува вистинско ime во рамки на приказна. Тоа е лице споменато во минување. Само NER го фаќа.
Нестандардни формати: Контакт информациите може да читаат "обратете се до мене на margaret точка wells на gmail". Едноставните regex алатки ги пропуштаат.
Термини специфични за истражување: Клиничките анкети честопати содржат болнички ID-а, шифри на локации и имиња на места. Тие можат да идентификуваат лице дури и кога изгледаат генерични.
Значи само совпаѓање со шаблони не е доволно. Потребни се алатки базирани на NLP за вистинска анонимизација на анкети. Видете Безбедност и Усогласеност за технички опции.
Реален Пример Од Три Универзитети
Истражувачки тим на три европски универзитети водеше анкета за искуство на пациентите. Наборот на податоци имаше 5.000 испитаници, 3 фиксни PII колони и 8 колони со слободен текст. Планот беше да се сподели фајлот меѓу локации под ДСА и GDPR Член 89.
Со само бришење колони:
- Фиксни PII колони: отстранети
- Колони со слободен текст: оставени сурови
- Тврдење: "PII колони избришани"
- Останати лични податоци: 47 именувани луѓе, 23 е-пошта адреси во коментари, 18 имиња на места кои можат да ги идентификуваат испитаниците
Со откривање базирано на NLP:
- Фиксни PII колони: заменети со конзистентни токени
- Колони со слободен текст: 47 имиња заменети, 23 е-пошти маскирани, 18 имиња на места направени генерични ("Клиника за внатрешни болести" → "[Здравствена институција]")
- Резултат: фајл кој го поминува GDPR Рецитал 26
- Етичката комисија го одобри методот
- ДЗЛ потврди усогласеност со ДСА
Јазот е реален. Првиот излез изгледа чист. Вториот излез е чист.
Петчекорен Протокол Пред Споделување
Користете ги овие чекори пред споделување на кој-бидело фајл за анкета или интервју.
Чекор 1: Означете ги секоја колона Означете секоја колона како фиксни лични податоци, фиксни не-лични податоци или слободен текст. Запишете го.
Чекор 2: Ракувајте со фиксните лични податоци Избришете ги записите кои не се потребни за анализа. Заменете ги записите потребни за поврзување. Запишете ги употребените шифри.
Чекор 3: Скенирајте ги колоните со слободен текст Извршете NLP откривање на сите колони со слободен текст. Прегледајте го секој резултат. Потврдете кои се вистински лични податоци.
Чекор 4: Применете замени
Заменете ги потврдените лични податоци во излезот со слободен текст. Користете јасни ознаки, како [ЛИЦЕ], [Е-ПОШТА] или [ЛОКАЦИЈА].
Чекор 5: Верификувајте и документирајте Земете примерок од 50-100 редови од излезот. Проверете ги записите со слободен текст рачно. Напишете краток резиме: употребени алатки, пронајдени типови ентитети, обработени колони. Споделете го со фајлот за преглед на етичката комисија.
Ова ги претвора "ги избришавме колоните со имиња" во јасен, документиран процес. Го задоволува GDPR Член 89 и стандардите за анонимизација кои повеќето етички комисии ги бараат. Посетете го нашиот центар за документи за поврзани водичи.
Извори
- GDPR Член 89: Заштитни мерки за научно истражување — VERIFIED-EXTERNAL
- GDPR Рецитал 26: Начело на анонимизација — VERIFIED-EXTERNAL
- ICO: Анонимизација и ризик за заштита на податоците — VERIFIED-EXTERNAL