Прогалина, яку видалення стовпців пропускає
Оновлено для 2026 року
Дослідницькі набори даних передаються між університетами у вигляді CSV-файлів. Коли команди готують CSV для передачі, робота ведеться по стовпцях: знайти персональну інформацію, видалити або замінити її.
Цей метод працює для фіксованих полів. Стовпець «email» містить адреси електронної пошти — видаляємо. Стовпець «phone» містить номери телефонів — видаляємо. Стовпець «ім'я учасника» містить імена — замінюємо кодом.
Але стовпці з відповідями вільного тексту — сліпа зона. Видалення позначених стовпців їх не торкається.
Опитування з 5 000 рядків може мати п'ять структурованих стовпців PII та п'ятнадцять стовпців відповідей вільного тексту. Структуровані містять імена, адреси електронної пошти, номери телефонів, ідентифікатори та роки народження. Стовпці вільного тексту містять коментарі, нотатки та пропозиції.
Структуровані стовпці очищуються. Стовпці вільного тексту залишаються в сирому вигляді. Але люди пишуть такі речі:
Перше: «Мій лікар у Київській міській лікарні, доктор Марія Коваль, сказала, що лікування нове.» Друге: «Я маю справу з цим з моєї аварії 2019 року.» Третє: «Ви можете зв'язатися з моїм доглядачем на margaret.wells@gmail.com для отримання деталей.»
Кожен запис називає реальну людину. Деякі містять факти про здоров'я або контактну інформацію. Жодне з цього не відображається в заголовку стовпця. Жодне не виявляється видаленням стовпців.
Чому це не відповідає стандарту GDPR
Рецитал 26 GDPR визначає анонімні записи як записи, що не можуть бути пов'язані з жодною особою. Планка висока. Записи є справді анонімними лише тоді, коли повторна ідентифікація розумно неможлива.
CSV з чистими фіксованими стовпцями, але з названими людьми у відкритому тексті цей тест не проходить. Ці імена ідентифікують людей. Набір даних досі є персональним. Правила Статті 89 GDPR все ще застосовуються. Отже, виникають три ризики.
Виняток для досліджень за Статтею 89: Стаття 89 дозволяє дослідникам обробляти персональну інформацію для науки з меншими обов'язками. Але лише за наявності «належних гарантій». Передача файлу з PII у відкритому тексті з посиланням на захист Статті 89 є юридичною невдачею.
Дозвіл етичної комісії: Більшість IRB та етичних комісій вимагають повної анонімізації для спільних наборів даних. Часткова робота — фіксовані стовпці очищені, вільний текст залишено сирим — зазвичай не проходить перевірку. Комісія може відхилити подання.
Угоди про обмін даними: DSA між установами встановлюють необхідний рівень анонімізації. Часткова робота, що не відповідає Рециталу 26 GDPR, може порушувати DSA. Дивіться наш огляд правової відповідності для розуміння ширшого контексту.
Чому вільний текст так важко очистити
Відповіді на опитування у вільному тексті — одна з найскладніших цілей PII. Ось чому.
Імена в контексті: «Доктор Марія Коваль у Київській міській лікарні» потребує розпізнавання іменованих сутностей (NER) для позначення особи та організації. Списки ключових слів цього не знайдуть.
Імена в розповідях: «Машина Ігоря Петренка вдарила мою» вставляє реальне ім'я в розповідь. Це людина, згадана мимохідь. Лише NER її зафіксує.
Нестандартні формати: Контактна інформація може читатися як «пишіть мені на margaret крапка wells собака gmail». Прості інструменти regex такі записи пропускають.
Специфічні для досліджень терміни: Клінічні опитування часто містять ідентифікатори лікарень, коди ділянок та назви місць. Вони можуть ідентифікувати людину навіть якщо виглядають як загальні дані.
Тому лише пошук за шаблонами недостатній. Для справжньої анонімізації опитувань потрібні інструменти на основі NLP. Дивіться Безпеку та відповідність для технічних варіантів.
Реальний приклад з трьох університетів
Дослідницька команда трьох європейських університетів провела опитування щодо досвіду пацієнтів. Набір даних мав 5 000 респондентів, 3 фіксованих стовпця PII та 8 стовпців вільного тексту. План полягав у передачі файлу між установами відповідно до DSA та Статті 89 GDPR.
Лише з видаленням стовпців:
- Фіксовані стовпці PII: видалено
- Стовпці вільного тексту: залишено в сирому вигляді
- Твердження: «Стовпці PII видалено»
- PII, що залишився: 47 названих людей, 23 адреси електронної пошти в коментарях, 18 назв місць, що могли ідентифікувати респондентів
З виявленням на основі NLP:
- Фіксовані стовпці PII: замінено послідовними токенами
- Стовпці вільного тексту: 47 імен замінено, 23 адреси електронної пошти замасковано, 18 назв місць узагальнено («Київська міська лікарня» → «[Медична установа]»)
- Результат: файл, що відповідає Рециталу 26 GDPR
- Метод схвалено етичною комісією
- DPO підтвердив відповідність DSA
Різниця реальна. Перший результат виглядає чистим. Другий результат є чистим.
П'ятикроковий протокол перед передачею
Використовуйте ці кроки перед передачею будь-якого файлу опитування або інтерв'ю.
Крок 1: Позначте кожен стовпець Позначте кожен стовпець як фіксований PII, фіксований не-PII або вільний текст. Запишіть це.
Крок 2: Обробіть фіксовані PII Видаліть записи, непотрібні для аналізу. Замініть записи, потрібні для зв'язку між записами. Зафіксуйте використані коди.
Крок 3: Скануйте стовпці вільного тексту Запустіть NLP-виявлення на всіх стовпцях вільного тексту. Перегляньте кожен результат. Підтвердьте, які з них є справжніми PII.
Крок 4: Застосуйте заміни
Замініть підтверджені PII у виводі вільного тексту. Використовуйте чіткі мітки на кшталт [ОСОБА], [EMAIL] або [МІСЦЕЗНАХОДЖЕННЯ].
Крок 5: Перевірте та задокументуйте Вибірково перегляньте 50–100 рядків з результату. Перевірте вручну записи вільного тексту. Напишіть короткий підсумок: використані інструменти, знайдені типи сутностей, оброблені стовпці. Передайте його разом із файлом для перевірки етичною комісією.
Це перетворює «ми видалили стовпець з іменами» на чіткий задокументований процес. Він відповідає Статті 89 GDPR та стандартам анонімізації, що вимагає більшість етичних комісій. Відвідайте наш центр документації для пов'язаних посібників.