2026 年更新版 — 监管机构对研究机构的 GDPR 执法力度持续加强,这一风险在已发表作品中依然普遍。
方法论截图中的隐患
许多学术论文中包含分析工具的截图,目的是展示研究方法。但这些截图可能暴露真实的个人记录,而大多数研究人员对此浑然不觉。
四种常见情形如下:
- 一篇机器学习论文展示了一个 pandas DataFrame,前 10 行含有真实患者姓名和 ID。
- 一项临床研究显示了 R 的输出结果,患者数值显示在屏幕上,患者 ID 出现在边距。
- 一篇社会科学论文展示了 SPSS 表格,真实受访者的回答清晰可见。
- 一本期刊教程展示了一个 Jupyter Notebook,真实用户记录作为示例行出现。
在每种情形中,作者的本意都是展示方法,个人记录只是为了使示例显得真实,并非刻意展示的内容。
但「并非本意」不等于安全。GDPR 第 4 条第 1 款规定,个人数据包括一切与已识别个人有关的信息。发表论文中的患者记录即为个人信息,无论其是否出现在截图中。未经当事人同意或第 6 条规定的合法依据而发表,即构成 GDPR 违规。
关于发表规则,请参阅 GDPR 合规概览。
为何这会带来法律风险
研究机构如今面临更多 GDPR 执法,发表失当是关键触发因素。突出的风险有四类。
期刊撤稿。 第 17 条赋予个人删除权,这同样适用于已发表的记录。如果当事人在论文中发现自己的信息,可以要求删除。对期刊而言,这通常意味着撤稿,对研究人员的职业声誉影响深远。
伦理委员会的发现。 伦理委员会审查已发表作品并检查 GDPR 合规情况,已开始标记截图中含有个人记录的论文,这些标记会影响研究人员未来的研究申请。
数据访问协议违规。 研究数据集附有数据访问协议,规定了可发表的内容。含有个人记录的截图可能违反协议,通常的后果是失去数据集访问权限。
第 89 条的限制。 第 89 条允许将个人信息用于科学研究,并放宽了部分规则,但前提是存在适当的保障措施。在截图中展示个人记录而未进行去标识化,不构成保障措施,而是违规。
请参阅我们的保护与保障措施页面了解完整分析。
这种情况有多普遍?
这一问题并不罕见,在多个领域的已发表作品中均有出现。
几个因素推动了这一现象。
可重复性规范。 期刊要求详细说明方法,研究人员用截图来满足这一需求,但并不总会检查每张图片中可见的内容。
时间压力。 截止日期紧迫导致快速截图,没有时间逐一审查每张图片中是否含有暴露的记录。
图像内容不易察觉。 一个 DataFrame 可能有 20 列,姓名和 ID 可能出现在最右侧的列中。研究人员关注的是关键列,而非 ID 列。
投稿时无检查机制。 期刊投稿系统进行格式检查和查重,但不扫描图片中的个人实体,问题无法在论文发表前被标记出来。
研究机构的筛查工作流程
提交前的筛查流程可以防止这些问题发生,共七个步骤。
- 研究人员完成含所有图表的论文草稿。
- 草稿提交给内部审核人——PI 或隐私联系人。
- 对论文中所有图像文件运行图像 PII 检测。
- 报告标记含有可读文本且与个人实体模式匹配的图像。
- 研究人员审查标记图像。
- 对每张标记图像:替换为干净的截图,将患者 ID 12847 替换为 ID 00001,将真实姓名替换为「患者 A」。
- 最终稿以干净图像投稿。
技术方案:
- 手动: 导出论文图像,运行批量 PII 检测,审查报告。
- 半自动化: 使用共享草稿文件夹,每周对新文件自动运行批量处理。
- 工作流程集成: 在投稿门户添加筛查步骤。
筛查速度很快:对一篇有 15 张图表的论文进行图像 PII 检测,不到两分钟。撤稿则需要数月。
案例研究:欧洲某高校
一个研究团队在论文工作流程中加入了图像 PII 筛查,起因是一次险些出现的失误:一篇正在评审的论文的 DataFrame 截图中含有患者姓名。
他们的做法:
- 所有草稿在投稿前进行图像 PII 处理。
- 筛查范围涵盖每篇草稿中的所有 PNG、JPG 和 PDF 图表。
- 由隐私联系人审查结果。
六个月数据:
- 筛查了 23 篇论文。
- 7 篇论文(30%)至少有一张含个人实体的图像。
- 发现类型:DataFrame 中的患者姓名(4 篇)、与患者格式匹配的用户 ID(2 篇)、截图边距中的电子邮件地址(1 篇)。
- 7 篇均在投稿前完成修改。
- 投稿后零撤稿请求,零伦理委员会发现。
伦理委员会现将这一工作流程引用为第 89 条下「适当保障措施」的典范,并支持该团队未来的研究豁免申请。
阅读创始人声明,了解 anonym.legal 为何正是为解决这类问题而生。