Проблема скриншотов методологии
Академические и исследовательские публикации выработали практику документирования, которая создаёт недооцениваемый риск GDPR: скриншоты сред анализа данных с реальными данными в рамках демонстрации методологии.
Сценарии распространены:
- Статья по машинному обучению включает скриншот DataFrame на pandas с первыми 10 строками обучающего набора данных — которые содержат реальные записи пациентов из источника данных
- Статья по анализу клинических данных показывает вывод R с индивидуальными значениями пациентов в сводной таблице с частично видимыми идентификаторами пациентов
- Статья по вычислительным социальным наукам включает выходные таблицы SPSS с индивидуальными значениями респондентов опроса в рамках объяснения процедуры анализа
- Учебник по инжинирингу данных, опубликованный в исследовательском журнале, включает скриншоты Jupyter notebook с реальными записями пользователей, используемыми как «образцы данных» для иллюстрации
В каждом случае автор не намеревался публиковать персональные данные. Скриншот был включён для документирования методологии. Персональные данные в скриншоте были случайными — они присутствовали, чтобы сделать пример конкретным.
Но «случайные» не означает «соответствующие». Статья 4(1) GDPR определяет персональные данные как любую информацию, относящуюся к идентифицированному или идентифицируемому физическому лицу. Запись пациента в опубликованной статье — даже в виде скриншота — является персональными данными. Публикация без согласия пациента или иного правового основания согласно Статье 6 является нарушением GDPR.
Почему это создаёт конкретный юридический риск
Исследовательские организации всё чаще сталкиваются с применением норм GDPR за нарушения при публикации данных. Ключевые тенденции:
Запросы об отзыве из журналов: Право на стирание по GDPR (Статья 17) распространяется на опубликованные данные. Если субъект данных обнаруживает свои персональные данные в опубликованной статье, он может запросить удаление — что для статьи журнала обычно означает отзыв или уведомление о корректировке. Отзыв из журнала является значительным профессиональным последствием.
Выводы этических комитетов по исследованиям: Комитеты по этике исследований, проверяющие опубликованные исследования на соответствие GDPR, начали выносить заключения по статьям, включающим данные на индивидуальном уровне в скриншотах без надлежащих мер защиты. Эти заключения влияют на положение исследователей перед этическими комитетами для будущих исследований.
Нарушения соглашений о доступе к данным: Большинство исследовательских наборов данных передаются по соглашениям о доступе к данным (DAA), определяющим, как данные могут использоваться и что может быть опубликовано. Включение данных на индивидуальном уровне в скриншоты публикаций, даже в виде миниатюр, может нарушить DAA — с последствиями, включая потерю привилегий доступа к данным.
Ограничения исследовательского исключения GDPR Статьи 89: Статья 89 GDPR допускает обработку персональных данных для научных исследований со сниженными обязательствами — но только при наличии «надлежащих мер защиты». Публикация данных на индивидуальном уровне в скриншотах методологии без анонимизации не является надлежащей мерой защиты; это — раскрытие.
Масштаб проблемы
Частота случаев не редкая. Систематический обзор статей по науке о данных, опубликованных в высокорейтинговых журналах в 2022–2024 годах, вероятно, выявил бы значительную долю статей, содержащих изображения с видимыми данными на индивидуальном уровне.
Способствующие факторы:
Нормы воспроизводимости: Современные научные публикации всё чаще требуют, чтобы методы были задокументированы с достаточной детализацией для воспроизведения результатов. Скриншоты аналитических сред рассматриваются как удовлетворяющие этой норме.
Скорость публикации: В условиях давления дедлайнов исследователи быстро создают скриншоты, не проверяя каждое изображение на содержание данных.
Малая заметность данных на изображениях: Скриншот DataFrame с 20 столбцами и 5 строками может содержать имена и идентификаторы в периферийных столбцах, на которые исследователь не обращает внимания при документировании процедуры анализа.
Отсутствие автоматической проверки в рабочих процессах отправки: Стандартные порталы отправки в журналы выполняют проверки полноты, формата и плагиата. Ни один из них не выполняет обнаружение PII на изображениях.
Внедрение проверки для исследовательских групп
Практический рабочий процесс для исследовательской группы, внедряющей проверку PII в рукописях:
Протокол перед отправкой:
- Исследователь завершает черновик рукописи со всеми рисунками
- Черновик отправляется на внутреннюю проверку (PI или назначенный рецензент)
- Обнаружение PII на изображениях запускается для всех файлов изображений, приложенных к рукописи
- Отчёт об обнаружении идентифицирует: какие изображения содержат читаемый текст, какой текст соответствует шаблонам сущностей PII
- Исследователь проверяет помеченные изображения
- Для каждого помеченного изображения: заменяет надлежащим анонимизированным скриншотом (заменяет идентификатор пациента 12847 на ID 00001, заменяет реальное имя на «Пациент А»)
- Окончательная рукопись отправляется в журнал с анонимизированными скриншотами
Варианты технической интеграции:
- Ручной: экспортировать все изображения рукописи, запустить пакетное обнаружение PII на изображениях, проверить отчёт
- Полуавтоматический: выделенная папка, куда помещаются черновики рукописей; еженедельная пакетная обработка новых файлов
- Интегрированный в рабочий процесс: институциональный портал отправки с предварительным шагом проверки
Временные затраты на проверку невелики: для типичной рукописи с 15 рисунками обнаружение PII на изображениях занимает менее 2 минут. Временные затраты на отзыв или заключение этического комитета измеряются месяцами.
Кейс: Требование комитета по этике исследований европейского университета
Группа исследователей по науке о данных в европейском университете внедрила проверку PII на изображениях как часть своего рабочего процесса отправки рукописей после ситуации «почти промах»: рецензия отправленной статьи выявила имена отдельных пациентов в скриншоте DataFrame, включённом как иллюстрация методологии.
Внедрение:
- Все черновики статей обрабатываются на PII изображений перед отправкой в журналы
- Проверка охватывает все файлы PNG, JPG и PDF в черновике
- Результаты проверяются назначенным контактным лицом группы по конфиденциальности данных
Результаты за 6 месяцев:
- Проверено 23 рукописи перед отправкой
- 7 рукописей (30%) имели хотя бы одно изображение с обнаруживаемыми сущностями PII
- Найденные типы сущностей: имена пациентов в DataFrames (4 статьи), идентификаторы пользователей, соответствующие форматам регистрации пациентов (2 статьи), адреса электронной почты в полях скриншота (1 статья)
- Все 7 исправлены до отправки
- Ноль запросов об отзыве после отправки или заключений этических органов за этот период
Комитет по этике исследований учреждения теперь использует этот рабочий процесс как задокументированный пример «надлежащих мер защиты» в заявках на исследовательское исключение GDPR Статьи 89.
Источники: