anonym.legal

By · Last updated 2026-06-05

Назад до блогуGDPR та відповідність

PII у наукових публікаціях: скриншоти та GDPR

Наукові статті регулярно включають pandas DataFrame та вивід R, що показують реальні записи пацієнтів як приклади методології. Ось чому це є порушенням GDPR.

June 5, 20267 хв читання
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Проблема скриншотів методології

Академічні та наукові публікації розробили практику документування, що створює недооцінений ризик GDPR: скриншоти середовищ аналізу даних, що показують реальні дані як частину демонстрації методології.

Сценарії є поширеними:

  • Стаття про машинне навчання включає скриншот pandas DataFrame, що показує перші 10 рядків навчального набору даних — який містить реальні записи пацієнтів із джерела даних
  • Стаття про аналіз клінічних даних показує вивід R з індивідуальними значеннями пацієнтів у підсумковій таблиці, з частково видимими ідентифікаторами пацієнтів
  • Стаття з обчислювальних соціальних наук включає таблиці виводу SPSS з індивідуальними значеннями респондентів опитування як частина пояснення процедури аналізу
  • Посібник з інженерії даних, опублікований у науковому журналі, включає скриншоти Jupyter-ноутбука з реальними записами користувачів, що використовуються як «зразкові дані» для ілюстрації

У кожному випадку автор не мав наміру публікувати персональні дані. Скриншот був включений для документування методології. Персональні дані на скриншоті були випадковими — вони були там, щоб зробити приклад конкретним.

Але «випадковим» не означає «відповідним». Стаття 4(1) GDPR визначає персональні дані як будь-яку інформацію, що стосується ідентифікованої або ідентифікованої фізичної особи. Запис пацієнта в опублікованій статті — навіть як скриншот — є персональними даними. Публікація без згоди пацієнта або іншої законної підстави відповідно до Статті 6 є порушенням GDPR.

Чому це створює конкретний юридичний ризик

Наукові установи все частіше стикаються з правозастосуванням GDPR за помилки при публікації даних. Ключові тенденції:

Запити на відкликання журналів: Право на видалення за GDPR (Стаття 17) поширюється на опубліковані дані. Якщо суб'єкт даних виявляє свої персональні дані в опублікованій статті, він може вимагати видалення — що для журнальної статті зазвичай означає відкликання або повідомлення про виправлення. Відкликання журналу є значним професійним наслідком.

Висновки комітетів з наукової етики: Комітети з наукової етики, що перевіряють опубліковані дослідження на відповідність GDPR, почали видавати висновки щодо статей, що включають дані на рівні окремих осіб у скриншотах без відповідних гарантій. Ці висновки впливають на статус дослідників у комітетів з етики для майбутніх досліджень.

Порушення угод про доступ до даних: Більшість дослідницьких наборів даних передаються на умовах Угод про доступ до даних (DAA), що визначають, як дані можуть використовуватися і що може бути опубліковано. Включення даних на рівні окремих осіб у скриншоти публікацій, навіть у вигляді мініатюр, може порушувати DAA — з наслідками, включаючи втрату привілеїв доступу до даних.

Обмеження виключення для досліджень за Статтею 89 GDPR: Стаття 89 GDPR дозволяє обробку персональних даних для наукових досліджень зі зменшеними зобов'язаннями — але лише за умови впровадження «відповідних гарантій». Публікація даних на рівні окремих осіб у скриншотах методології без анонімізації не є відповідною гарантією; це є розкриттям.

Масштаб проблеми

Цей випадок не є рідкісним. Систематичний огляд статей у галузі науки про дані, опублікованих у журналах з високим імпакт-фактором між 2022 і 2024 роками, з великою ймовірністю виявив би значну частку, що містять зображення з видимими даними на рівні окремих осіб.

Сприяючі фактори:

Норми відтворюваності: Сучасне наукове видавництво все частіше вимагає, щоб методи були задокументовані з достатньою деталізацією для відтворення результатів. Скриншоти середовищ аналізу розглядаються як відповідність цій нормі.

Швидкість публікації: Під тиском дедлайнів дослідники швидко генерують скриншоти, не переглядаючи кожне зображення на вміст даних.

Низька видимість даних на зображеннях: Скриншот DataFrame з 20 стовпцями та 5 рядками може мати імена та ідентифікатори в периферійних стовпцях, на яких дослідник не зосереджується при документуванні процедури аналізу.

Відсутність автоматизованої перевірки в робочих процесах подання: Стандартні портали подання журналів виконують перевірки повноти, формату та перевірку на плагіат. Жоден не виконує виявлення PII на зображеннях.

Впровадження скринінгу для дослідницьких груп

Практичний робочий процес для дослідницької групи, що впроваджує скринінг PII у рукописах:

Протокол перед поданням:

  1. Дослідник завершує чернетку рукопису з усіма рисунками
  2. Чернетка подається на внутрішній скринінг (PI або призначений рецензент)
  3. Виявлення PII на зображеннях виконується для всіх файлів зображень, прикріплених до рукопису
  4. Звіт про виявлення визначає: які зображення містять читабельний текст, який текст відповідає шаблонам сутностей PII
  5. Дослідник переглядає позначені зображення
  6. Для кожного позначеного зображення: замінити правильно анонімізованим скриншотом (замінити ідентифікатор пацієнта 12847 на ідентифікатор 00001, замінити реальне ім'я на «Пацієнт А»)
  7. Остаточний рукопис подається до журналу з анонімізованими скриншотами

Варіанти технічної інтеграції:

  • Ручний: експортуйте всі зображення рукопису, запустіть пакетне виявлення PII на зображеннях, перегляньте звіт
  • Напівавтоматичний: спеціальна папка, куди завантажуються чернетки рукописів; щотижнева пакетна обробка для нових файлів
  • Інтегрований у робочий процес: інституційний портал подання з кроком попереднього скринінгу перед поданням

Вартість часу на скринінг є низькою: для типового рукопису з 15 рисунками виявлення PII на зображеннях займає менше 2 хвилин. Вартість часу для відкликання або висновку комітету з етики вимірюється місяцями.

Приклад: Вимога комітету з наукової етики Європейського університету

Дослідницька група з науки про дані в Європейському університеті впровадила скринінг PII на зображеннях як частину свого робочого процесу подання рукописів після майже-промаху: рецензування поданої статті виявило імена окремих пацієнтів у скриншоті DataFrame, що був включений як ілюстрація методології.

Впровадження:

  • Усі чернетки статей обробляються на наявність PII на зображеннях перед поданням до журналів
  • Скринінг охоплює всі PNG, JPG та PDF рисунки в чернетці
  • Результати переглядаються призначеним контактом групи з питань конфіденційності даних

Результати за 6 місяців:

  • 23 рукописи пройшли скринінг перед поданням
  • 7 рукописів (30%) мали принаймні одне зображення з виявленими сутностями PII
  • Знайдені типи сутностей: імена пацієнтів у DataFrames (4 статті), ідентифікатори користувачів, що відповідають форматам реєстрації пацієнтів (2 статті), адреси електронної пошти в полях зображень (1 стаття)
  • Усі 7 виправлено перед поданням
  • Нуль запитів на відкликання або висновків комітету з етики після подання за цей період

Комітет з наукової етики установи тепер використовує цей робочий процес як задокументований приклад «відповідних гарантій» у заявках на виключення для досліджень за Статтею 89 GDPR.

Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.