Прогалина, яку видалення стовпців пропускає

Оновлено для 2026 року

Дослідницькі набори даних передаються між університетами у вигляді CSV-файлів. Коли команди готують CSV для передачі, робота ведеться по стовпцях: знайти персональну інформацію, видалити або замінити її.

Цей метод працює для фіксованих полів. Стовпець «email» містить адреси електронної пошти — видаляємо. Стовпець «phone» містить номери телефонів — видаляємо. Стовпець «ім'я учасника» містить імена — замінюємо кодом.

Але стовпці з відповідями вільного тексту — сліпа зона. Видалення позначених стовпців їх не торкається.

Опитування з 5 000 рядків може мати п'ять структурованих стовпців PII та п'ятнадцять стовпців відповідей вільного тексту. Структуровані містять імена, адреси електронної пошти, номери телефонів, ідентифікатори та роки народження. Стовпці вільного тексту містять коментарі, нотатки та пропозиції.

Структуровані стовпці очищуються. Стовпці вільного тексту залишаються в сирому вигляді. Але люди пишуть такі речі:

Перше: «Мій лікар у Київській міській лікарні, доктор Марія Коваль, сказала, що лікування нове.» Друге: «Я маю справу з цим з моєї аварії 2019 року.» Третє: «Ви можете зв'язатися з моїм доглядачем на margaret.wells@gmail.com для отримання деталей.»

Кожен запис називає реальну людину. Деякі містять факти про здоров'я або контактну інформацію. Жодне з цього не відображається в заголовку стовпця. Жодне не виявляється видаленням стовпців.

Рецитал 26 GDPR визначає анонімні записи як записи, що не можуть бути пов'язані з жодною особою. Планка висока. Записи є справді анонімними лише тоді, коли повторна ідентифікація розумно неможлива.

CSV з чистими фіксованими стовпцями, але з названими людьми у відкритому тексті цей тест не проходить. Ці імена ідентифікують людей. Набір даних досі є персональним. Правила Статті 89 GDPR все ще застосовуються. Отже, виникають три ризики.

Виняток для досліджень за Статтею 89: Стаття 89 дозволяє дослідникам обробляти персональну інформацію для науки з меншими обов'язками. Але лише за наявності «належних гарантій». Передача файлу з PII у відкритому тексті з посиланням на захист Статті 89 є юридичною невдачею.

Дозвіл етичної комісії: Більшість IRB та етичних комісій вимагають повної анонімізації для спільних наборів даних. Часткова робота — фіксовані стовпці очищені, вільний текст залишено сирим — зазвичай не проходить перевірку. Комісія може відхилити подання.

Угоди про обмін даними: DSA між установами встановлюють необхідний рівень анонімізації. Часткова робота, що не відповідає Рециталу 26 GDPR, може порушувати DSA. Дивіться наш огляд правової відповідності для розуміння ширшого контексту.

Чому вільний текст так важко очистити

Відповіді на опитування у вільному тексті — одна з найскладніших цілей PII. Ось чому.

Імена в контексті: «Доктор Марія Коваль у Київській міській лікарні» потребує розпізнавання іменованих сутностей (NER) для позначення особи та організації. Списки ключових слів цього не знайдуть.

Імена в розповідях: «Машина Ігоря Петренка вдарила мою» вставляє реальне ім'я в розповідь. Це людина, згадана мимохідь. Лише NER її зафіксує.

Нестандартні формати: Контактна інформація може читатися як «пишіть мені на margaret крапка wells собака gmail». Прості інструменти regex такі записи пропускають.

Специфічні для досліджень терміни: Клінічні опитування часто містять ідентифікатори лікарень, коди ділянок та назви місць. Вони можуть ідентифікувати людину навіть якщо виглядають як загальні дані.

Тому лише пошук за шаблонами недостатній. Для справжньої анонімізації опитувань потрібні інструменти на основі NLP. Дивіться Безпеку та відповідність для технічних варіантів.

Реальний приклад з трьох університетів

Дослідницька команда трьох європейських університетів провела опитування щодо досвіду пацієнтів. Набір даних мав 5 000 респондентів, 3 фіксованих стовпця PII та 8 стовпців вільного тексту. План полягав у передачі файлу між установами відповідно до DSA та Статті 89 GDPR.

Лише з видаленням стовпців:

Фіксовані стовпці PII: видалено
Стовпці вільного тексту: залишено в сирому вигляді
Твердження: «Стовпці PII видалено»
PII, що залишився: 47 названих людей, 23 адреси електронної пошти в коментарях, 18 назв місць, що могли ідентифікувати респондентів

З виявленням на основі NLP:

Фіксовані стовпці PII: замінено послідовними токенами
Стовпці вільного тексту: 47 імен замінено, 23 адреси електронної пошти замасковано, 18 назв місць узагальнено («Київська міська лікарня» → «[Медична установа]»)
Результат: файл, що відповідає Рециталу 26 GDPR
Метод схвалено етичною комісією
DPO підтвердив відповідність DSA

Різниця реальна. Перший результат виглядає чистим. Другий результат є чистим.

П'ятикроковий протокол перед передачею

Використовуйте ці кроки перед передачею будь-якого файлу опитування або інтерв'ю.

Крок 1: Позначте кожен стовпець Позначте кожен стовпець як фіксований PII, фіксований не-PII або вільний текст. Запишіть це.

Крок 2: Обробіть фіксовані PII Видаліть записи, непотрібні для аналізу. Замініть записи, потрібні для зв'язку між записами. Зафіксуйте використані коди.

Крок 3: Скануйте стовпці вільного тексту Запустіть NLP-виявлення на всіх стовпцях вільного тексту. Перегляньте кожен результат. Підтвердьте, які з них є справжніми PII.

Крок 4: Застосуйте заміни Замініть підтверджені PII у виводі вільного тексту. Використовуйте чіткі мітки на кшталт [ОСОБА], [EMAIL] або [МІСЦЕЗНАХОДЖЕННЯ].

Крок 5: Перевірте та задокументуйте Вибірково перегляньте 50–100 рядків з результату. Перевірте вручну записи вільного тексту. Напишіть короткий підсумок: використані інструменти, знайдені типи сутностей, оброблені стовпці. Передайте його разом із файлом для перевірки етичною комісією.

Це перетворює «ми видалили стовпець з іменами» на чіткий задокументований процес. Він відповідає Статті 89 GDPR та стандартам анонімізації, що вимагає більшість етичних комісій. Відвідайте наш центр документації для пов'язаних посібників.

Джерела

Схожі статті

GDPR та відповідність

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

Почати безкоштовну пробну версію Переглянути функції

PII у вільному тексті CSV: далі за видаленням стовпців

Прогалина, яку видалення стовпців пропускає

Чому вільний текст так важко очистити

Реальний приклад з трьох університетів

П'ятикроковий протокол перед передачею

Джерела

Схожі статті

Самостійне розгортання PII не витримує аудит відповідності

Presidio не виявляє 220+ сутностей GDPR

Дрейф конфігурації: прихований ризик GDPR

Готові захистити свої дані?

PII у вільному тексті CSV: далі за видаленням стовпців

Прогалина, яку видалення стовпців пропускає

Чому це не відповідає стандарту GDPR

Чому вільний текст так важко очистити

Реальний приклад з трьох університетів

П'ятикроковий протокол перед передачею

Джерела

Схожі статті

Самостійне розгортання PII не витримує аудит відповідності

Presidio не виявляє 220+ сутностей GDPR

Дрейф конфігурації: прихований ризик GDPR

Готові захистити свої дані?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow