anonym.legal
Назад към блогаGDPR и съответствие

Изследователска публикация PII: Защо вашите екранни...

Академичните доклади редовно включват pandas DataFrames и R изход, показващ реални досиета на пациенти като примери за методология.

April 21, 20267 мин. четене
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Проблемът с екранната снимка на методологията

Академични и изследователски публикации са разработили модел на документиране, който създава недооценен GDPR риск: екранни снимки на среди за анализ на данни, показващи реални данни като част от демонстрираща методология.

Сценариите са често срещани:

  • Хартия за машинно обучение включва екранна снимка на pandas DataFrame, показваща първите 10 реда от набора от данни за обучение - който съдържа реални записи на пациенти от източника на данни
  • Хартия за анализ на клинични данни показва R изход с индивидуални стойности на пациента в обобщена таблица, с частично видими идентификатори на пациенти
  • Изчислителна социална научна статия включва SPSS изходни таблици, които показват индивидуални стойности на респондентите в проучването като част от обяснението на процедурата за анализ
  • Урок за инженеринг на данни, публикуван в научно списание, включва екранни снимки на преносим компютър на Jupyter с реални потребителски записи, използвани като "примерни данни" за илюстрацията

Във всеки случай авторът не е възнамерявал да публикува лични данни. Екранната снимка беше включена в методологията на документа. Личните данни в екранната снимка бяха случайни — там, за да стане примерът конкретен.

Но "случайно" не го прави съвместим. GDPR Член 4, параграф 1 определя личните данни като всяка информация, свързана с идентифицирано физическо лице или физическо лице, което може да бъде идентифицирано. Досие на пациент в публикувана статия - дори като екранна снимка - е лична информация. Публикуването му без съгласието на пациента или друго законово основание по чл.6 е нарушение на GDPR.

Защо това създава конкретен правен риск

Изследователските институции все по-често се сблъскват с прилагането на GDPR за грешки при публикуване на данни. Ключови разработки:

**Искания за оттегляне на дневник: ** Правото на GDPR на изтриване (член 17) се разпростира върху публикувани данни. Ако субект на данни открие своите лични данни в публикувана статия, той може да поиска изтриване - което за статия в списание обикновено означава известие за оттегляне или коригиране. Оттеглянето на дневника е значителна професионална последица.

**Констатации на борда по етика на изследванията: ** Комисиите по етика на изследванията, преглеждащи публикувани изследвания за съответствие с GDPR, започнаха да публикуват констатации за документи, които включват данни на индивидуално ниво в екранни снимки без подходящи предпазни мерки. Тези констатации засягат позицията на изследователите пред етичните съвети за бъдещи изследвания.

Нарушения на Споразумението за достъп до данни: Повечето набори от изследователски данни се споделят съгласно Споразумения за достъп до данни, които уточняват как могат да се използват данните и какво може да се публикува. Включването на данни на индивидуално ниво в екранни снимки на публикации, дори като миниатюри, може да наруши DAA — с последствия, включително загуба на привилегии за достъп до данни.

**GDPR Ограничения за освобождаване от научни изследвания по член 89: ** GDPR Член 89 позволява обработване на лични данни за научни изследвания с намалени задължения — но само когато се прилагат „подходящи предпазни мерки“. Публикуването на данни на индивидуално ниво в екранни снимки на методологията без анонимизиране не е подходяща предпазна мярка; това е разкриване.

Мащабът на проблема

Заболеваемостта не е рядка. Систематичен преглед на научни документи за данни, публикувани в списания с голямо въздействие между 2022-2024 г., вероятно ще открие значителна част от изображения с видими данни на индивидуално ниво.

Допринасящите фактори:

Норми за възпроизводимост: Съвременното научно публикуване все повече изисква методите да бъдат документирани с достатъчно подробности за възпроизвеждане на резултатите. Екранните снимки на среди за анализ се разглеждат като отговарящи на тази норма.

Скорост на публикуване: Под натиска на крайния срок изследователите генерират екранни снимки бързо, без да преглеждат всяко изображение за съдържание на данни.

Слаба видимост на данните в изображенията: Екранна снимка на DataFrame с 20 колони и 5 реда може да има имена и идентификатори в периферни колони, върху които изследователят не се фокусира, когато документира процедурата за анализ.

Няма автоматизирана проверка в работните потоци за подаване: Стандартните портали за подаване на списания извършват проверки за пълнота, проверки на формата и скрининг за плагиатство. Никой не извършва откриване на PII на изображението.

Внедряване на скрининг за изследователски групи

Практически работен процес за изследователска група, прилагаща проверка на PII на ръкопис:

Протокол преди подаване:

  1. Изследователят допълва черновата на ръкописа с всички фигури
  2. Чернова, изпратена за вътрешна проверка (PI или назначен рецензент)
  3. Откриването на PII на изображение се изпълнява на всички файлове с изображения, прикачени към ръкописа
  4. Докладът за откриване идентифицира: кои изображения съдържат четим текст, кой текст съвпада с моделите на обекти с PII
  5. Изследователят преглежда маркирани изображения
  6. За всяко маркирано изображение: заменете с правилно анонимизирана екранна снимка (заменете ID на пациента 12847 с ID 00001, заменете истинското име с „Пациент A“)
  7. Окончателният ръкопис, изпратен в списанието с анонимни екранни снимки

Опции за техническа интеграция:

  • Ръчно: експортирайте всички изображения на ръкописи, стартирайте откриване на PII на партидно изображение, отчет за преглед
  • Полуавтоматизирано: специална папка, където се съхраняват чернови на ръкописи; седмичната пакетна обработка се изпълнява на нови файлове
  • Интегриран в работния процес: портал за институционално подаване със стъпка за скрининг преди подаване

Времевите разходи за проверка са ниски: за типичен 15-цифрен ръкопис откриването на PII на изображението отнема под 2 минути. Времевите разходи за оттегляне или заключение на борда по етика се измерват в месеци.

Случай на употреба: Изискване за изследователска етика в европейския университет

Изследователска група за наука за данни в европейски университет внедри скрининг на PII на изображения като част от работния процес за подаване на ръкописи след почти пропуск: прегледът на представена статия откри имена на отделни пациенти в екранна снимка на DataFrame, която беше включена като илюстрация на методология.

Изпълнение:

  • Всички чернови на документи, обработени за PII на изображението преди изпращане в списания
  • Проверката обхваща всички PNG, JPG и PDF фигури в черновата
  • Резултати, прегледани от определения контакт за поверителност на данните на групата

Резултати за 6 месеца:

  • 23 ръкописа, прегледани преди изпращане
  • 7 ръкописа (30%) са имали поне едно изображение с откриваеми лица, идентифициращи личности
  • Намерени типове обекти: имена на пациенти в DataFrames (4 документа), потребителски идентификатори, съответстващи на форматите за регистрация на пациенти (2 документа), имейл адреси в полетата на екранната снимка (1 документ)
  • Всички 7 коригирани преди изпращане
  • Нула искания за оттегляне след подаване или етични констатации през периода

Комитетът по изследователска етика на институцията сега използва този работен процес като документиран пример за „подходящи предпазни мерки“ в GDPR заявленията за освобождаване от изследвания по член 89.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.