Проблемът с екранната снимка на методологията
Академични и изследователски публикации са разработили модел на документиране, който създава недооценен GDPR риск: екранни снимки на среди за анализ на данни, показващи реални данни като част от демонстрираща методология.
Сценариите са често срещани:
- Хартия за машинно обучение включва екранна снимка на pandas DataFrame, показваща първите 10 реда от набора от данни за обучение - който съдържа реални записи на пациенти от източника на данни
- Хартия за анализ на клинични данни показва R изход с индивидуални стойности на пациента в обобщена таблица, с частично видими идентификатори на пациенти
- Изчислителна социална научна статия включва SPSS изходни таблици, които показват индивидуални стойности на респондентите в проучването като част от обяснението на процедурата за анализ
- Урок за инженеринг на данни, публикуван в научно списание, включва екранни снимки на преносим компютър на Jupyter с реални потребителски записи, използвани като "примерни данни" за илюстрацията
Във всеки случай авторът не е възнамерявал да публикува лични данни. Екранната снимка беше включена в методологията на документа. Личните данни в екранната снимка бяха случайни — там, за да стане примерът конкретен.
Но "случайно" не го прави съвместим. GDPR Член 4, параграф 1 определя личните данни като всяка информация, свързана с идентифицирано физическо лице или физическо лице, което може да бъде идентифицирано. Досие на пациент в публикувана статия - дори като екранна снимка - е лична информация. Публикуването му без съгласието на пациента или друго законово основание по чл.6 е нарушение на GDPR.
Защо това създава конкретен правен риск
Изследователските институции все по-често се сблъскват с прилагането на GDPR за грешки при публикуване на данни. Ключови разработки:
**Искания за оттегляне на дневник: ** Правото на GDPR на изтриване (член 17) се разпростира върху публикувани данни. Ако субект на данни открие своите лични данни в публикувана статия, той може да поиска изтриване - което за статия в списание обикновено означава известие за оттегляне или коригиране. Оттеглянето на дневника е значителна професионална последица.
**Констатации на борда по етика на изследванията: ** Комисиите по етика на изследванията, преглеждащи публикувани изследвания за съответствие с GDPR, започнаха да публикуват констатации за документи, които включват данни на индивидуално ниво в екранни снимки без подходящи предпазни мерки. Тези констатации засягат позицията на изследователите пред етичните съвети за бъдещи изследвания.
Нарушения на Споразумението за достъп до данни: Повечето набори от изследователски данни се споделят съгласно Споразумения за достъп до данни, които уточняват как могат да се използват данните и какво може да се публикува. Включването на данни на индивидуално ниво в екранни снимки на публикации, дори като миниатюри, може да наруши DAA — с последствия, включително загуба на привилегии за достъп до данни.
**GDPR Ограничения за освобождаване от научни изследвания по член 89: ** GDPR Член 89 позволява обработване на лични данни за научни изследвания с намалени задължения — но само когато се прилагат „подходящи предпазни мерки“. Публикуването на данни на индивидуално ниво в екранни снимки на методологията без анонимизиране не е подходяща предпазна мярка; това е разкриване.
Мащабът на проблема
Заболеваемостта не е рядка. Систематичен преглед на научни документи за данни, публикувани в списания с голямо въздействие между 2022-2024 г., вероятно ще открие значителна част от изображения с видими данни на индивидуално ниво.
Допринасящите фактори:
Норми за възпроизводимост: Съвременното научно публикуване все повече изисква методите да бъдат документирани с достатъчно подробности за възпроизвеждане на резултатите. Екранните снимки на среди за анализ се разглеждат като отговарящи на тази норма.
Скорост на публикуване: Под натиска на крайния срок изследователите генерират екранни снимки бързо, без да преглеждат всяко изображение за съдържание на данни.
Слаба видимост на данните в изображенията: Екранна снимка на DataFrame с 20 колони и 5 реда може да има имена и идентификатори в периферни колони, върху които изследователят не се фокусира, когато документира процедурата за анализ.
Няма автоматизирана проверка в работните потоци за подаване: Стандартните портали за подаване на списания извършват проверки за пълнота, проверки на формата и скрининг за плагиатство. Никой не извършва откриване на PII на изображението.
Внедряване на скрининг за изследователски групи
Практически работен процес за изследователска група, прилагаща проверка на PII на ръкопис:
Протокол преди подаване:
- Изследователят допълва черновата на ръкописа с всички фигури
- Чернова, изпратена за вътрешна проверка (PI или назначен рецензент)
- Откриването на PII на изображение се изпълнява на всички файлове с изображения, прикачени към ръкописа
- Докладът за откриване идентифицира: кои изображения съдържат четим текст, кой текст съвпада с моделите на обекти с PII
- Изследователят преглежда маркирани изображения
- За всяко маркирано изображение: заменете с правилно анонимизирана екранна снимка (заменете ID на пациента 12847 с ID 00001, заменете истинското име с „Пациент A“)
- Окончателният ръкопис, изпратен в списанието с анонимни екранни снимки
Опции за техническа интеграция:
- Ръчно: експортирайте всички изображения на ръкописи, стартирайте откриване на PII на партидно изображение, отчет за преглед
- Полуавтоматизирано: специална папка, където се съхраняват чернови на ръкописи; седмичната пакетна обработка се изпълнява на нови файлове
- Интегриран в работния процес: портал за институционално подаване със стъпка за скрининг преди подаване
Времевите разходи за проверка са ниски: за типичен 15-цифрен ръкопис откриването на PII на изображението отнема под 2 минути. Времевите разходи за оттегляне или заключение на борда по етика се измерват в месеци.
Случай на употреба: Изискване за изследователска етика в европейския университет
Изследователска група за наука за данни в европейски университет внедри скрининг на PII на изображения като част от работния процес за подаване на ръкописи след почти пропуск: прегледът на представена статия откри имена на отделни пациенти в екранна снимка на DataFrame, която беше включена като илюстрация на методология.
Изпълнение:
- Всички чернови на документи, обработени за PII на изображението преди изпращане в списания
- Проверката обхваща всички PNG, JPG и PDF фигури в черновата
- Резултати, прегледани от определения контакт за поверителност на данните на групата
Резултати за 6 месеца:
- 23 ръкописа, прегледани преди изпращане
- 7 ръкописа (30%) са имали поне едно изображение с откриваеми лица, идентифициращи личности
- Намерени типове обекти: имена на пациенти в DataFrames (4 документа), потребителски идентификатори, съответстващи на форматите за регистрация на пациенти (2 документа), имейл адреси в полетата на екранната снимка (1 документ)
- Всички 7 коригирани преди изпращане
- Нула искания за оттегляне след подаване или етични констатации през периода
Комитетът по изследователска етика на институцията сега използва този работен процес като документиран пример за „подходящи предпазни мерки“ в GDPR заявленията за освобождаване от изследвания по член 89.
Източници:
- [GDPR член 89: Предпазни мерки за научни изследвания] (https://gdpr-info.eu/art-89-gdpr/)
- [GDPR Член 17: Право на изтриване] (https://gdpr-info.eu/art-17-gdpr/)
- ICO: Изследвания, обществен интерес и научни цели