返回博客GDPR 与合规

研究出版PII:为什么您的数据分析截图可能在您不知情的情况下违反GDPR

学术论文通常包含pandas DataFrame和R输出,显示真实患者记录作为方法示例。以下是为什么这违反GDPR以及如何在提交前筛选手稿的原因。

April 21, 20267 分钟阅读
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

方法论截图问题

学术和研究出版物已经形成了一种文档模式,这种模式带来了一个被低估的GDPR风险:数据分析环境的截图显示真实数据,作为展示方法论的一部分。

这些场景很常见:

  • 一篇机器学习论文包含一个pandas DataFrame的截图,显示训练数据集的前10行——其中包含来自数据源的真实患者记录
  • 一篇临床数据分析论文显示R输出,包含个别患者值的汇总表,患者ID部分可见
  • 一篇计算社会科学论文包含SPSS输出表,显示个别调查受访者的值,作为解释分析程序的一部分
  • 一篇在研究期刊上发表的数据工程教程包含Jupyter notebook的截图,使用真实用户记录作为插图的“示例数据”

在每种情况下,作者并不打算发布个人数据。截图是为了记录方法论而包含的。截图中的个人数据是偶然的——在那里使示例具体化。

但“偶然”并不使其合规。GDPR第4(1)条将个人数据定义为与已识别或可识别的自然人有关的任何信息。已发表论文中的患者记录——即使是截图——也是个人数据。在没有患者同意或根据第6条的其他合法依据的情况下发布它是GDPR的违反。

为什么这会带来具体的法律风险

研究机构越来越面临因数据发布失败而导致的GDPR执行。关键发展:

期刊撤回请求: GDPR的删除权(第17条)扩展到已发布的数据。如果数据主体在已发表的论文中发现其个人数据,他们可以请求删除——这通常意味着撤回或更正通知。期刊撤回是一个重大的职业后果。

研究伦理委员会的发现: 审查已发布研究以确保GDPR合规的研究伦理委员会已经开始对包含个体级数据的截图的论文发布发现,而没有适当的保护措施。这些发现影响研究人员在未来研究中与伦理委员会的关系。

数据访问协议的违反: 大多数研究数据集是在数据访问协议下共享的,这些协议规定了数据的使用方式和可以发布的内容。在出版截图中包含个体级数据,即使是缩略图,也可能违反DAA——后果包括失去数据访问权限。

GDPR第89条研究豁免的限制: GDPR第89条允许在科学研究中处理个人数据,减少义务——但仅在实施“适当的保护措施”的情况下。在没有匿名化的情况下在方法论截图中发布个体级数据并不是适当的保护措施;这是披露。

问题的规模

这种情况并不罕见。对2022-2024年间在高影响力期刊上发表的数据科学论文进行的系统评审可能会发现相当比例的论文包含可见的个体级数据图像。

促成因素:

可重复性规范: 现代科学出版越来越要求方法以足够的细节记录,以便重现结果。分析环境的截图被视为满足这一规范。

出版速度: 在截止日期压力下,研究人员快速生成截图,而不审查每个图像的数据内容。

图像中数据的低可见性: 一个包含20列和5行的DataFrame的截图可能在边缘列中有名称和ID,而研究人员在记录分析程序时并未关注。

提交工作流程中没有自动检查: 标准期刊提交门户执行完整性检查、格式检查和抄袭筛查。没有执行图像PII检测。

研究小组的筛选实施

为实施手稿PII筛选的研究小组提供的实用工作流程:

提交前协议:

  1. 研究人员完成包含所有图形的手稿草稿
  2. 草稿提交给内部筛选(PI或指定审阅者)
  3. 对所有附加到手稿的图像文件运行图像PII检测
  4. 检测报告识别:哪些图像包含可读文本,哪些文本匹配PII实体模式
  5. 研究人员审查标记的图像
  6. 对于每个标记的图像:用适当匿名化的截图替换(将患者ID 12847替换为ID 00001,将真实姓名替换为“患者A”)
  7. 最终手稿提交给期刊,附上匿名化的截图

技术集成选项:

  • 手动:导出所有手稿图像,运行批量图像PII检测,审查报告
  • 半自动化:专用文件夹,草稿手稿存放在其中;每周对新文件进行批处理
  • 工作流程集成:具有提交前筛选步骤的机构提交门户

筛选的时间成本很低:对于典型的15幅图形手稿,图像PII检测耗时不到2分钟。撤回或伦理委员会发现的时间成本以月为单位计算。

用例:欧洲大学研究伦理要求

一所欧洲大学的数据科学研究小组在其手稿提交工作流程中实施了图像PII筛选,原因是一次险些失误:提交的论文审查发现了在作为方法论插图包含的DataFrame截图中的个别患者姓名。

实施:

  • 所有草稿论文在提交给期刊之前都经过图像PII处理
  • 筛选涵盖草稿中的所有PNG、JPG和PDF图形
  • 结果由小组指定的数据隐私联系人审查

6个月的结果:

  • 23篇手稿在提交前进行了筛选
  • 7篇手稿(30%)至少有一幅图像中可检测到PII实体
  • 发现的实体类型:DataFrame中的患者姓名(4篇论文)、与患者注册格式匹配的用户ID(2篇论文)、截图边缘的电子邮件地址(1篇论文)
  • 所有7篇在提交前进行了更正
  • 在此期间没有提交后的撤回请求或伦理发现

该机构的研究伦理委员会现在将此工作流程用作GDPR第89条研究豁免申请中“适当保护措施”的文档示例。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。