anonym.legal
Назад к блогуGDPR и соблюдение

PII в научных публикациях: почему скриншоты анализа...

Академические статьи регулярно включают DataFrames на pandas и вывод R с реальными записями пациентов в качестве примеров методологии.

April 21, 20267 мин чтения
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Проблема скриншотов методологии

Академические и исследовательские публикации выработали практику документирования, которая создаёт недооцениваемый риск GDPR: скриншоты сред анализа данных с реальными данными в рамках демонстрации методологии.

Сценарии распространены:

  • Статья по машинному обучению включает скриншот DataFrame на pandas с первыми 10 строками обучающего набора данных — которые содержат реальные записи пациентов из источника данных
  • Статья по анализу клинических данных показывает вывод R с индивидуальными значениями пациентов в сводной таблице с частично видимыми идентификаторами пациентов
  • Статья по вычислительным социальным наукам включает выходные таблицы SPSS с индивидуальными значениями респондентов опроса в рамках объяснения процедуры анализа
  • Учебник по инжинирингу данных, опубликованный в исследовательском журнале, включает скриншоты Jupyter notebook с реальными записями пользователей, используемыми как «образцы данных» для иллюстрации

В каждом случае автор не намеревался публиковать персональные данные. Скриншот был включён для документирования методологии. Персональные данные в скриншоте были случайными — они присутствовали, чтобы сделать пример конкретным.

Но «случайные» не означает «соответствующие». Статья 4(1) GDPR определяет персональные данные как любую информацию, относящуюся к идентифицированному или идентифицируемому физическому лицу. Запись пациента в опубликованной статье — даже в виде скриншота — является персональными данными. Публикация без согласия пациента или иного правового основания согласно Статье 6 является нарушением GDPR.

Почему это создаёт конкретный юридический риск

Исследовательские организации всё чаще сталкиваются с применением норм GDPR за нарушения при публикации данных. Ключевые тенденции:

Запросы об отзыве из журналов: Право на стирание по GDPR (Статья 17) распространяется на опубликованные данные. Если субъект данных обнаруживает свои персональные данные в опубликованной статье, он может запросить удаление — что для статьи журнала обычно означает отзыв или уведомление о корректировке. Отзыв из журнала является значительным профессиональным последствием.

Выводы этических комитетов по исследованиям: Комитеты по этике исследований, проверяющие опубликованные исследования на соответствие GDPR, начали выносить заключения по статьям, включающим данные на индивидуальном уровне в скриншотах без надлежащих мер защиты. Эти заключения влияют на положение исследователей перед этическими комитетами для будущих исследований.

Нарушения соглашений о доступе к данным: Большинство исследовательских наборов данных передаются по соглашениям о доступе к данным (DAA), определяющим, как данные могут использоваться и что может быть опубликовано. Включение данных на индивидуальном уровне в скриншоты публикаций, даже в виде миниатюр, может нарушить DAA — с последствиями, включая потерю привилегий доступа к данным.

Ограничения исследовательского исключения GDPR Статьи 89: Статья 89 GDPR допускает обработку персональных данных для научных исследований со сниженными обязательствами — но только при наличии «надлежащих мер защиты». Публикация данных на индивидуальном уровне в скриншотах методологии без анонимизации не является надлежащей мерой защиты; это — раскрытие.

Масштаб проблемы

Частота случаев не редкая. Систематический обзор статей по науке о данных, опубликованных в высокорейтинговых журналах в 2022–2024 годах, вероятно, выявил бы значительную долю статей, содержащих изображения с видимыми данными на индивидуальном уровне.

Способствующие факторы:

Нормы воспроизводимости: Современные научные публикации всё чаще требуют, чтобы методы были задокументированы с достаточной детализацией для воспроизведения результатов. Скриншоты аналитических сред рассматриваются как удовлетворяющие этой норме.

Скорость публикации: В условиях давления дедлайнов исследователи быстро создают скриншоты, не проверяя каждое изображение на содержание данных.

Малая заметность данных на изображениях: Скриншот DataFrame с 20 столбцами и 5 строками может содержать имена и идентификаторы в периферийных столбцах, на которые исследователь не обращает внимания при документировании процедуры анализа.

Отсутствие автоматической проверки в рабочих процессах отправки: Стандартные порталы отправки в журналы выполняют проверки полноты, формата и плагиата. Ни один из них не выполняет обнаружение PII на изображениях.

Внедрение проверки для исследовательских групп

Практический рабочий процесс для исследовательской группы, внедряющей проверку PII в рукописях:

Протокол перед отправкой:

  1. Исследователь завершает черновик рукописи со всеми рисунками
  2. Черновик отправляется на внутреннюю проверку (PI или назначенный рецензент)
  3. Обнаружение PII на изображениях запускается для всех файлов изображений, приложенных к рукописи
  4. Отчёт об обнаружении идентифицирует: какие изображения содержат читаемый текст, какой текст соответствует шаблонам сущностей PII
  5. Исследователь проверяет помеченные изображения
  6. Для каждого помеченного изображения: заменяет надлежащим анонимизированным скриншотом (заменяет идентификатор пациента 12847 на ID 00001, заменяет реальное имя на «Пациент А»)
  7. Окончательная рукопись отправляется в журнал с анонимизированными скриншотами

Варианты технической интеграции:

  • Ручной: экспортировать все изображения рукописи, запустить пакетное обнаружение PII на изображениях, проверить отчёт
  • Полуавтоматический: выделенная папка, куда помещаются черновики рукописей; еженедельная пакетная обработка новых файлов
  • Интегрированный в рабочий процесс: институциональный портал отправки с предварительным шагом проверки

Временные затраты на проверку невелики: для типичной рукописи с 15 рисунками обнаружение PII на изображениях занимает менее 2 минут. Временные затраты на отзыв или заключение этического комитета измеряются месяцами.

Кейс: Требование комитета по этике исследований европейского университета

Группа исследователей по науке о данных в европейском университете внедрила проверку PII на изображениях как часть своего рабочего процесса отправки рукописей после ситуации «почти промах»: рецензия отправленной статьи выявила имена отдельных пациентов в скриншоте DataFrame, включённом как иллюстрация методологии.

Внедрение:

  • Все черновики статей обрабатываются на PII изображений перед отправкой в журналы
  • Проверка охватывает все файлы PNG, JPG и PDF в черновике
  • Результаты проверяются назначенным контактным лицом группы по конфиденциальности данных

Результаты за 6 месяцев:

  • Проверено 23 рукописи перед отправкой
  • 7 рукописей (30%) имели хотя бы одно изображение с обнаруживаемыми сущностями PII
  • Найденные типы сущностей: имена пациентов в DataFrames (4 статьи), идентификаторы пользователей, соответствующие форматам регистрации пациентов (2 статьи), адреса электронной почты в полях скриншота (1 статья)
  • Все 7 исправлены до отправки
  • Ноль запросов об отзыве после отправки или заключений этических органов за этот период

Комитет по этике исследований учреждения теперь использует этот рабочий процесс как задокументированный пример «надлежащих мер защиты» в заявках на исследовательское исключение GDPR Статьи 89.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.