Проблема скриншотів методології

Академічні та наукові публікації розробили практику документування, що створює недооцінений ризик GDPR: скриншоти середовищ аналізу даних, що показують реальні дані як частину демонстрації методології.

Сценарії є поширеними:

Стаття про машинне навчання включає скриншот pandas DataFrame, що показує перші 10 рядків навчального набору даних — який містить реальні записи пацієнтів із джерела даних
Стаття про аналіз клінічних даних показує вивід R з індивідуальними значеннями пацієнтів у підсумковій таблиці, з частково видимими ідентифікаторами пацієнтів
Стаття з обчислювальних соціальних наук включає таблиці виводу SPSS з індивідуальними значеннями респондентів опитування як частина пояснення процедури аналізу
Посібник з інженерії даних, опублікований у науковому журналі, включає скриншоти Jupyter-ноутбука з реальними записами користувачів, що використовуються як «зразкові дані» для ілюстрації

У кожному випадку автор не мав наміру публікувати персональні дані. Скриншот був включений для документування методології. Персональні дані на скриншоті були випадковими — вони були там, щоб зробити приклад конкретним.

Але «випадковим» не означає «відповідним». Стаття 4(1) GDPR визначає персональні дані як будь-яку інформацію, що стосується ідентифікованої або ідентифікованої фізичної особи. Запис пацієнта в опублікованій статті — навіть як скриншот — є персональними даними. Публікація без згоди пацієнта або іншої законної підстави відповідно до Статті 6 є порушенням GDPR.

Чому це створює конкретний юридичний ризик

Наукові установи все частіше стикаються з правозастосуванням GDPR за помилки при публікації даних. Ключові тенденції:

Запити на відкликання журналів: Право на видалення за GDPR (Стаття 17) поширюється на опубліковані дані. Якщо суб'єкт даних виявляє свої персональні дані в опублікованій статті, він може вимагати видалення — що для журнальної статті зазвичай означає відкликання або повідомлення про виправлення. Відкликання журналу є значним професійним наслідком.

Висновки комітетів з наукової етики: Комітети з наукової етики, що перевіряють опубліковані дослідження на відповідність GDPR, почали видавати висновки щодо статей, що включають дані на рівні окремих осіб у скриншотах без відповідних гарантій. Ці висновки впливають на статус дослідників у комітетів з етики для майбутніх досліджень.

Порушення угод про доступ до даних: Більшість дослідницьких наборів даних передаються на умовах Угод про доступ до даних (DAA), що визначають, як дані можуть використовуватися і що може бути опубліковано. Включення даних на рівні окремих осіб у скриншоти публікацій, навіть у вигляді мініатюр, може порушувати DAA — з наслідками, включаючи втрату привілеїв доступу до даних.

Обмеження виключення для досліджень за Статтею 89 GDPR: Стаття 89 GDPR дозволяє обробку персональних даних для наукових досліджень зі зменшеними зобов'язаннями — але лише за умови впровадження «відповідних гарантій». Публікація даних на рівні окремих осіб у скриншотах методології без анонімізації не є відповідною гарантією; це є розкриттям.

Масштаб проблеми

Цей випадок не є рідкісним. Систематичний огляд статей у галузі науки про дані, опублікованих у журналах з високим імпакт-фактором між 2022 і 2024 роками, з великою ймовірністю виявив би значну частку, що містять зображення з видимими даними на рівні окремих осіб.

Сприяючі фактори:

Норми відтворюваності: Сучасне наукове видавництво все частіше вимагає, щоб методи були задокументовані з достатньою деталізацією для відтворення результатів. Скриншоти середовищ аналізу розглядаються як відповідність цій нормі.

Швидкість публікації: Під тиском дедлайнів дослідники швидко генерують скриншоти, не переглядаючи кожне зображення на вміст даних.

Низька видимість даних на зображеннях: Скриншот DataFrame з 20 стовпцями та 5 рядками може мати імена та ідентифікатори в периферійних стовпцях, на яких дослідник не зосереджується при документуванні процедури аналізу.

Відсутність автоматизованої перевірки в робочих процесах подання: Стандартні портали подання журналів виконують перевірки повноти, формату та перевірку на плагіат. Жоден не виконує виявлення PII на зображеннях.

Впровадження скринінгу для дослідницьких груп

Практичний робочий процес для дослідницької групи, що впроваджує скринінг PII у рукописах:

Протокол перед поданням:

Дослідник завершує чернетку рукопису з усіма рисунками
Чернетка подається на внутрішній скринінг (PI або призначений рецензент)
Виявлення PII на зображеннях виконується для всіх файлів зображень, прикріплених до рукопису
Звіт про виявлення визначає: які зображення містять читабельний текст, який текст відповідає шаблонам сутностей PII
Дослідник переглядає позначені зображення
Для кожного позначеного зображення: замінити правильно анонімізованим скриншотом (замінити ідентифікатор пацієнта 12847 на ідентифікатор 00001, замінити реальне ім'я на «Пацієнт А»)
Остаточний рукопис подається до журналу з анонімізованими скриншотами

Варіанти технічної інтеграції:

Ручний: експортуйте всі зображення рукопису, запустіть пакетне виявлення PII на зображеннях, перегляньте звіт
Напівавтоматичний: спеціальна папка, куди завантажуються чернетки рукописів; щотижнева пакетна обробка для нових файлів
Інтегрований у робочий процес: інституційний портал подання з кроком попереднього скринінгу перед поданням

Вартість часу на скринінг є низькою: для типового рукопису з 15 рисунками виявлення PII на зображеннях займає менше 2 хвилин. Вартість часу для відкликання або висновку комітету з етики вимірюється місяцями.

Приклад: Вимога комітету з наукової етики Європейського університету

Дослідницька група з науки про дані в Європейському університеті впровадила скринінг PII на зображеннях як частину свого робочого процесу подання рукописів після майже-промаху: рецензування поданої статті виявило імена окремих пацієнтів у скриншоті DataFrame, що був включений як ілюстрація методології.

Впровадження:

Усі чернетки статей обробляються на наявність PII на зображеннях перед поданням до журналів
Скринінг охоплює всі PNG, JPG та PDF рисунки в чернетці
Результати переглядаються призначеним контактом групи з питань конфіденційності даних

Результати за 6 місяців:

23 рукописи пройшли скринінг перед поданням
7 рукописів (30%) мали принаймні одне зображення з виявленими сутностями PII
Знайдені типи сутностей: імена пацієнтів у DataFrames (4 статті), ідентифікатори користувачів, що відповідають форматам реєстрації пацієнтів (2 статті), адреси електронної пошти в полях зображень (1 стаття)
Усі 7 виправлено перед поданням
Нуль запитів на відкликання або висновків комітету з етики після подання за цей період

Комітет з наукової етики установи тепер використовує цей робочий процес як задокументований приклад «відповідних гарантій» у заявках на виключення для досліджень за Статтею 89 GDPR.

Джерела:

Схожі статті

GDPR та відповідність

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

Почати безкоштовну пробну версію Переглянути функції

PII у наукових публікаціях: скриншоти та GDPR

Проблема скриншотів методології

Чому це створює конкретний юридичний ризик

Масштаб проблеми

Впровадження скринінгу для дослідницьких груп

Приклад: Вимога комітету з наукової етики Європейського університету

Схожі статті

Самостійне розгортання PII не витримує аудит відповідності

Presidio не виявляє 220+ сутностей GDPR

Дрейф конфігурації: прихований ризик GDPR

Готові захистити свої дані?

PII у наукових публікаціях: скриншоти та GDPR

Проблема скриншотів методології

Чому це створює конкретний юридичний ризик

Масштаб проблеми

Впровадження скринінгу для дослідницьких груп

Приклад: Вимога комітету з наукової етики Європейського університету

Схожі статті

Самостійне розгортання PII не витримує аудит відповідності

Presidio не виявляє 220+ сутностей GDPR

Дрейф конфігурації: прихований ризик GDPR

Готові захистити свої дані?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow