anonym.legal
Назад до блогуGDPR та відповідність

PII у наукових публікаціях: Витоки даних через...

Дослідники регулярно публікують скріншоти, графіки та таблиці, що містять PII.

April 21, 20267 хв читання
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Прихована проблема у наукових дослідженнях

Науковці та дослідники обробляють величезні масиви персональних даних — медичні записи, соціологічні опитування, фінансові транзакції, записи з соціальних мереж. І хоча наукова спільнота давно усвідомила необхідність захисту даних учасників досліджень, один вектор ризику часто залишається непоміченим: скріншоти, зображення та допоміжні матеріали.

У 2024 році дослідники Массачусетського технологічного інституту виявили, що понад 30% статей у соціальних науках, опублікованих у провідних журналах, містили хоча б один рисунок або таблицю з ідентифікуючою інформацією про учасників.

Типові вектори витоку PII у публікаціях

1. Скріншоти інтерфейсів

Типовий сценарій: дослідник демонструє інтерфейс системи або додатку, зробивши скріншот під час реальної роботи. На скріншоті — реальні імена користувачів, електронні адреси, назви компаній.

Що потрапляє у скріншот непомітно:

  • Назви файлів і папок у файловому менеджері
  • Електронні адреси відправників у поштових клієнтах
  • Імена контактів у месенджерах
  • Адреси URL з іменами користувачів
  • Системні повідомлення з ідентифікаторами

2. Таблиці даних і датафрейми

Pandas df.head(), виведення SQL-запитів, Excel-таблиці — всі вони часто потрапляють у статті як є. Дослідники показують «перші 5 рядків», не розуміючи, що в цих рядках — реальні дані учасників.

3. Графіки та діаграми

  • Діаграма розсіювання з підписами точок (кожна точка — конкретна людина)
  • Мережеві графи з реальними іменами вузлів
  • Геопросторові карти з точними адресами
  • Дерева рішень, що розкривають ознаки конкретних осіб

4. Додаткові матеріали (supplementary materials)

Архіви з кодом, що завантажуються разом зі статтею, часто містять:

  • Jupyter Notebooks з незамаскованими реальними даними
  • CSV-файли з «анонімізованими» даними, що насправді є псевдонімізованими (і піддаються де-анонімізації)
  • Config-файли з API-ключами або ідентифікаторами систем

5. Методологічні розділи з прикладами

Автори наводять конкретні приклади, щоб проілюструвати методологію. «Наприклад, пацієнт 63-річний чоловік із діагнозом...» — при достатньому контексті це може ідентифікувати конкретну людину.

Правові наслідки

GDPR (ЄС)

GDPR прямо застосовується до наукових досліджень. Стаття 89 надає певні виключення для наукових цілей, але лише за умови:

  • Впровадження технічних і організаційних заходів (псевдонімізація)
  • Збору лише необхідних даних (мінімізація)
  • Зберігання лише на необхідний термін

Публікація ідентифікуючих даних не підпадає під наукове виключення.

HIPAA (США)

Дослідження, що використовують медичні дані, підпадають під HIPAA. «Safe Harbor» вимагає видалення 18 ідентифікаторів PHI перед публікацією. Публікація скріншотів або таблиць, що містять PHI, може призвести до значних штрафів.

Вимоги журналів і конференцій

Провідні журнали (Nature, Science, PNAS) та конференції (NeurIPS, ICML) посилюють вимоги до анонімізації даних. IEEE і ACM розробили рекомендації щодо відповідального розкриття даних.

Практичний робочий процес: Перевірка перед публікацією

Фаза 1: Інвентаризація матеріалів

Перед подачею статті складіть список всіх:

  • Рисунків (figures) та таблиць
  • Скріншотів у тексті
  • Supplementary materials
  • Додатків з кодом та даними

Фаза 2: Перевірка на PII

Для кожного елементу перевірте:

Тип PIIПрикладиМетод виявлення
Прямі ідентифікаториІм'я, email, телефонАвтоматичне сканування
Квазі-ідентифікаториВік + стать + ZIP + діагнозРучна перевірка
Метадані зображеньGPS-координати в EXIFОчищення метаданих
Фонові даніЗаписи на дошці, відкриті вкладкиРучна перевірка

Фаза 3: Анонімізація

Для таблиць даних:

# Замість:
df.head()  # показує реальні дані

# Використовуйте:
df_anon = df.copy()
df_anon['name'] = df_anon['name'].apply(lambda x: 'Participant_' + str(hash(x))[:6])
df_anon['email'] = '[REDACTED]'
df_anon.head()

Для скріншотів:

  • Використовуйте інструменти розмиття (Gaussian blur) для конкретних полів
  • Або замініть реальні дані синтетичними перед скріншотом
  • Не використовуйте чорні прямокутники — вони видаляються в Photoshop

Для зображень:

  • Очистіть EXIF-метадані (ExifTool — безкоштовний)
  • Перевірте фон зображень на наявність ідентифікуючих деталей

Фаза 4: Перевірка після анонімізації

Після анонімізації попросіть колегу, не знайомого з вашими даними, перевірити матеріали. Вони можуть побачити ідентифікуючі деталі, які ви вже не помічаєте.

Спеціальні сценарії

Дослідження соціальних медіа

Публікації з Twitter/X, Reddit, Facebook — навіть видалені — залишаються персональними даними. Публікація імен користувачів або повних цитат без згоди є проблематичною.

Рекомендація: Використовуйте перефразування або агрегування для ілюстрації тем. Не публікуйте конкретні дописи з ідентифікаторами користувачів.

Якісні дослідження та інтерв'ю

Цитати з інтерв'ю можуть ідентифікувати учасника, навіть якщо ім'я замінено:

  • Унікальна лексика або мовний стиль
  • Специфічні деталі (регіон, тип роботи, сімейний стан)
  • Послідовність цитат, що разом розкривають особу

Рекомендація: Узагальнюйте ідентифікуючі деталі (наприклад, «міський регіон Центральної Європи» замість конкретного міста).

Медичні зображення (MRI, КТ, рентген)

DICOM-файли містять вбудовані метадані пацієнта. Перед публікацією:

  • Використовуйте інструменти деідентифікації DICOM (RSNA Anonymizer)
  • Перевірте вбудований текст на самому зображенні
  • Перевірте унікальні анатомічні особливості

Автоматизація перевірки PII перед публікацією

Для лабораторій та дослідницьких груп, що регулярно публікують дані, корисно впровадити автоматизований pre-publication pipeline:

  1. Сканування тексту статті — anonym.legal API може перевірити текст на наявність PII
  2. Сканування таблиць — аналіз структурованих даних у CSV/Excel
  3. OCR зображень — витягування тексту зі скріншотів для сканування
  4. Перевірка метаданих — автоматичне очищення EXIF з зображень

Висновок

Витоки PII у наукових публікаціях — реальна та недооцінена проблема. Дослідники зосереджуються на захисті «сирих даних», але забувають про матеріали, які потрапляють у публікацію.

Простий процес перевірки перед публікацією може запобігти серйозним етичним і правовим наслідкам — і захистити учасників досліджень, яким вони довіряють.

Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.