Јазот Кој Бришењето на Колони го Пропушта

Ажурирано за 2026 година

Истражувачките групи на податоци се движат помеѓу универзитетите како CSV фајлови. Кога тимовите подготвуваат CSV за споделување, работата е базирана на колони. Пронајдете ги личните информации. Избришете ги или заменете ги.

Тој метод функционира за фиксни полиња. Колона наречена "е-пошта" содржи е-пошта адреси — избришете ја. Колона наречена "телефон" содржи телефонски броеви — избришете ја. Колона наречена "ime_ucesnika" содржи имиња — заменете ја со шифра.

Но колоните за одговори со слободен текст се слепа точка. Отстранувањето на означените колони не ги допира нив.

Анкета со 5.000 редови може да има пет структурирани PII колони и петнаесет колони за одговори со слободен текст. Структурираните содржат имиња, е-пошти, телефонски броеви, ID-а и години на раѓање. Оние со слободен текст содржат коментари, белешки и предлози.

Структурираните колони се исчистуваат. Колоните со слободен текст остануваат сурови. Но луѓето пишуваат вакви работи, три примери.

Прво: "Мојот лекар во Клиниката за внатрешни болести, д-р Марија Стојановска, рече дека третманот е нов." Второ: "Со ова се занимавам од мојата несреќа во 2019 година." Трето: "Можете да се обратите до мојот негувател на margaret.wells@gmail.com за детали."

Секој запис именува вистинско лице. Некои вклучуваат здравствени факти или контакт информации. Ниту едно од ова не се появува во заглавие на колона. Ниту едно не е фатено со бришење колони.

GDPR Рецитал 26 ги дефинира анонимните записи како записи кои не можат да бидат поврзани со ниедно лице. Праговникот е висок. Записите се вистински анонимни само кога повторната идентификација не е разумно можна.

CSV со чисти фиксни колони, но именувани луѓе во слободен текст не го поминува тој тест. Тие имиња се идентификувачки. Наборот на податоци е сеуште личен. Правилата на GDPR Член 89 сеуште се применуваат. Така произлегуваат три ризика.

Истражувачко ослободување по Член 89: Член 89 им дозволува на истражувачите да обработуваат лични информации за наука со помалку должности. Но само каде постојат "соодветни заштитни мерки". Споделување фајл со слободен текст со лични податоци додека се тврди покриеност по Член 89 е правен неуспех.

Одобрување на етичка комисија: Повеќето ИРБ-и и етички одбори бараат целосна анонимизација за споделени групи на податоци. Делумната работа — фиксни колони исчистени, слободен текст оставен суров — обично не успева. Одборот може да ја отфрли поднесоката.

Договори за споделување податоци: ДСА-ите помеѓу институциите го поставуваат потребното ниво на анонимизација. Делумна работа која не го задоволува GDPR Рецитал 26 може да го прекрши ДСА. Видете го нашиот Преглед за правна усогласеност за тоа како ова се вклопува во поширока програма.

Зошто Слободниот Текст е Толку Тежок за Исчистување

Одговорите на анкети со слободен текст се меѓу најтешките цели за лични податоци. Еве зошто.

Имиња во контекст: "Д-р Марија Стојановска во Клиниката за внатрешни болести" бара препознавање на именувани ентитети (NER) за да означи лице и организација. Листите на клучни зборови не можат да го пронајдат тоа.

Имиња во приказни: "Автомобилот на Иван Петровски го удри мојот" поставува вистинско ime во рамки на приказна. Тоа е лице споменато во минување. Само NER го фаќа.

Нестандардни формати: Контакт информациите може да читаат "обратете се до мене на margaret точка wells на gmail". Едноставните regex алатки ги пропуштаат.

Термини специфични за истражување: Клиничките анкети честопати содржат болнички ID-а, шифри на локации и имиња на места. Тие можат да идентификуваат лице дури и кога изгледаат генерични.

Значи само совпаѓање со шаблони не е доволно. Потребни се алатки базирани на NLP за вистинска анонимизација на анкети. Видете Безбедност и Усогласеност за технички опции.

Реален Пример Од Три Универзитети

Истражувачки тим на три европски универзитети водеше анкета за искуство на пациентите. Наборот на податоци имаше 5.000 испитаници, 3 фиксни PII колони и 8 колони со слободен текст. Планот беше да се сподели фајлот меѓу локации под ДСА и GDPR Член 89.

Со само бришење колони:

Фиксни PII колони: отстранети
Колони со слободен текст: оставени сурови
Тврдење: "PII колони избришани"
Останати лични податоци: 47 именувани луѓе, 23 е-пошта адреси во коментари, 18 имиња на места кои можат да ги идентификуваат испитаниците

Со откривање базирано на NLP:

Фиксни PII колони: заменети со конзистентни токени
Колони со слободен текст: 47 имиња заменети, 23 е-пошти маскирани, 18 имиња на места направени генерични ("Клиника за внатрешни болести" → "[Здравствена институција]")
Резултат: фајл кој го поминува GDPR Рецитал 26
Етичката комисија го одобри методот
ДЗЛ потврди усогласеност со ДСА

Јазот е реален. Првиот излез изгледа чист. Вториот излез е чист.

Петчекорен Протокол Пред Споделување

Користете ги овие чекори пред споделување на кој-бидело фајл за анкета или интервју.

Чекор 1: Означете ги секоја колона Означете секоја колона како фиксни лични податоци, фиксни не-лични податоци или слободен текст. Запишете го.

Чекор 2: Ракувајте со фиксните лични податоци Избришете ги записите кои не се потребни за анализа. Заменете ги записите потребни за поврзување. Запишете ги употребените шифри.

Чекор 3: Скенирајте ги колоните со слободен текст Извршете NLP откривање на сите колони со слободен текст. Прегледајте го секој резултат. Потврдете кои се вистински лични податоци.

Чекор 4: Применете замени Заменете ги потврдените лични податоци во излезот со слободен текст. Користете јасни ознаки, како [ЛИЦЕ], [Е-ПОШТА] или [ЛОКАЦИЈА].

Чекор 5: Верификувајте и документирајте Земете примерок од 50-100 редови од излезот. Проверете ги записите со слободен текст рачно. Напишете краток резиме: употребени алатки, пронајдени типови ентитети, обработени колони. Споделете го со фајлот за преглед на етичката комисија.

Ова ги претвора "ги избришавме колоните со имиња" во јасен, документиран процес. Го задоволува GDPR Член 89 и стандардите за анонимизација кои повеќето етички комисии ги бараат. Посетете го нашиот центар за документи за поврзани водичи.

Извори

GDPR Член 89: Заштитни мерки за научно истражување — VERIFIED-EXTERNAL
GDPR Рецитал 26: Начело на анонимизација — VERIFIED-EXTERNAL
ICO: Анонимизација и ризик за заштита на податоците — VERIFIED-EXTERNAL

Поврзани статии

GDPR & Усогласеност

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

Започнете бесплатен пробен период Погледнете ги карактеристиките

CSV Слободен Текст PII: Подалеку од Бришење Колони

Јазот Кој Бришењето на Колони го Пропушта

Зошто Слободниот Текст е Толку Тежок за Исчистување

Реален Пример Од Три Универзитети

Петчекорен Протокол Пред Споделување

Извори

Поврзани статии

Самохостираниот PII не успева на ревизии за усогласеност

Presidio пропушта 220+ GDPR ентитети

Дрејф во конфигурацијата: Скриен ризик по GDPR

Подготвени да ги заштитите вашите податоци?

CSV Слободен Текст PII: Подалеку од Бришење Колони

Јазот Кој Бришењето на Колони го Пропушта

Зошто Ова Не го Задоволува GDPR Стандардот

Зошто Слободниот Текст е Толку Тежок за Исчистување

Реален Пример Од Три Универзитети

Петчекорен Протокол Пред Споделување

Извори

Поврзани статии

Самохостираниот PII не успева на ревизии за усогласеност

Presidio пропушта 220+ GDPR ентитети

Дрејф во конфигурацијата: Скриен ризик по GDPR

Подготвени да ги заштитите вашите податоци?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow