Пробел, который не устраняет удаление столбцов
Обновлено для 2026 года
Исследовательские наборы данных передаются между университетами в виде CSV-файлов. При подготовке CSV к передаче работа ведётся на уровне столбцов: найти персональные данные, удалить или заменить их.
Этот метод работает для фиксированных полей. Столбец с именем «email» содержит адреса электронной почты — удалить. Столбец «телефон» содержит номера телефонов — удалить. Столбец «participant_name» содержит имена — заменить кодом.
Но столбцы с ответами в произвольной форме остаются слепым пятном. Удаление размеченных столбцов их не затрагивает.
Опрос с 5 000 строк может содержать пять структурированных столбцов с ПДн и пятнадцать столбцов с открытыми текстовыми ответами. Структурированные содержат имена, email, номера телефонов, идентификаторы и годы рождения. Открытые — комментарии, заметки и предложения.
Структурированные столбцы очищаются. Текстовые остаются необработанными. Но люди пишут в них такие вещи.
Первый пример: «Мой врач в Московском медицинском центре, доктор Мария Сантос, сказала, что лечение новое». Второй: «Я живу с этим с момента аварии в 2019 году». Третий: «Вы можете связаться с моей сиделкой по адресу margaret.wells@gmail.com для получения подробностей».
Каждая запись называет реального человека. Некоторые включают факты о здоровье или контактную информацию. Ничего из этого не фигурирует в заголовке столбца. Ничего из этого не обнаруживается при удалении столбцов.
Почему это не соответствует стандарту GDPR
Соображение 26 GDPR определяет анонимные записи как те, которые нельзя связать ни с каким человеком. Планка высока. Записи являются по-настоящему анонимными только тогда, когда повторная идентификация объективно невозможна.
CSV с чистыми фиксированными столбцами, но с именованными людьми в открытых текстах этому тесту не соответствует. Эти имена идентифицируемы. Набор данных по-прежнему является персональным. Правила статьи 89 GDPR по-прежнему применяются. Отсюда возникают три риска.
Исключение для исследований по статье 89: статья 89 позволяет исследователям обрабатывать персональные данные в научных целях с меньшими обязательствами. Но только при наличии «соответствующих гарантий». Передача файла с ПДн в открытом тексте под прикрытием исключения по статье 89 — правовая ошибка.
Одобрение этического комитета: большинство институциональных комитетов по этике требуют полной анонимизации передаваемых наборов данных. Частичная работа — фиксированные столбцы очищены, открытый текст оставлен необработанным — как правило, не проходит. Комитет может отклонить заявку.
Соглашения об обмене данными: СОД между учреждениями устанавливают требуемый уровень анонимизации. Частичная работа, не соответствующая Соображению 26 GDPR, может нарушить СОД. Подробнее о том, как это вписывается в более широкую программу, см. в нашем обзоре правового соответствия.
Почему открытый текст так сложно очистить
Ответы в произвольной форме — одна из наиболее сложных задач для обнаружения ПДн. Вот почему.
Имена в контексте: «Доктор Мария Сантос в Московском медицинском центре» требует распознавания именованных сущностей (NER) для выявления человека и организации. Списки ключевых слов с этим не справятся.
Имена в рассказах: «Машина Джона Хендерсона врезалась в мою» — реальное имя внутри истории. Человек упоминается вскользь. Только NER его обнаружит.
Нестандартные форматы: контактная информация может читаться как «напишите мне margaret точка wells собачка gmail». Простые инструменты регулярных выражений это пропустят.
Специфические для исследований термины: клинические опросы нередко содержат идентификаторы больниц, коды центров и географические названия. Они могут идентифицировать человека, даже если кажутся общими.
Таким образом, одного сопоставления с образцом недостаточно. Для реальной анонимизации опросов нужны инструменты на основе NLP. Технические варианты см. в разделе Безопасность и соответствие требованиям.
Реальный пример из трёх университетов
Исследовательская группа из трёх европейских университетов провела опрос об опыте пациентов. Набор данных включал 5 000 респондентов, 3 фиксированных столбца с ПДн и 8 столбцов с открытыми текстовыми ответами. Планировалась передача файла между площадками по СОД и статье 89 GDPR.
При удалении только столбцов:
- Фиксированные столбцы с ПДн: удалены
- Столбцы с открытым текстом: оставлены необработанными
- Заявление: «Столбцы с ПДн удалены»
- Оставшиеся ПДн: 47 названных людей, 23 адреса электронной почты в комментариях, 18 географических названий, способных идентифицировать респондентов
При обнаружении на основе NLP:
- Фиксированные столбцы с ПДн: заменены согласованными токенами
- Столбцы с открытым текстом: 47 имён заменены, 23 email замаскированы, 18 географических названий обезличены («Московский медицинский центр» → «[Медицинское учреждение]»)
- Результат: файл, соответствующий Соображению 26 GDPR
- Этический комитет одобрил метод
- DPO подтвердил соответствие СОД
Разрыв реален. Первый результат выглядит чистым. Второй результат является чистым.
Пятиэтапный протокол перед передачей данных
Используйте эти шаги перед передачей любого файла опроса или интервью.
Шаг 1: Разметить каждый столбец Обозначьте каждый столбец как фиксированный ПДн, фиксированный не-ПДн или открытый текст. Запишите это.
Шаг 2: Обработать фиксированные ПДн Удалите записи, не нужные для анализа. Замените записи, необходимые для связи данных. Запишите использованные коды.
Шаг 3: Просканировать столбцы с открытым текстом Запустите NLP-обнаружение по всем столбцам с открытым текстом. Проверьте каждый результат. Подтвердите, какие из них являются реальными ПДн.
Шаг 4: Применить замены
Замените подтверждённые ПДн в открытом тексте. Используйте чёткие метки: [ЧЕЛОВЕК], [EMAIL] или [МЕСТОНАХОЖДЕНИЕ].
Шаг 5: Проверить и задокументировать Отберите 50–100 строк из результата. Проверьте открытые текстовые записи вручную. Составьте краткое резюме: использованные инструменты, найденные типы сущностей, обработанные столбцы. Приложите его к файлу для этической экспертизы.
Это превращает «мы удалили столбец с именами» в чёткий, задокументированный процесс. Он соответствует статье 89 GDPR и стандартам анонимизации, которые требуют большинство этических комитетов. Связанные руководства доступны на нашем информационном портале.