By · Last updated 2026-06-05

返回博客GDPR 与合规

学术研究 PII:截图与 GDPR 合规风险

学术论文中常用含有真实患者记录的 pandas DataFrame 和 R 输出截图作为方法论示例,这构成 GDPR 违规。

June 5, 20267 分钟阅读
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

2026 年更新版 — 监管机构对研究机构的 GDPR 执法力度持续加强,这一风险在已发表作品中依然普遍。

方法论截图中的隐患

许多学术论文中包含分析工具的截图,目的是展示研究方法。但这些截图可能暴露真实的个人记录,而大多数研究人员对此浑然不觉。

四种常见情形如下:

  • 一篇机器学习论文展示了一个 pandas DataFrame,前 10 行含有真实患者姓名和 ID。
  • 一项临床研究显示了 R 的输出结果,患者数值显示在屏幕上,患者 ID 出现在边距。
  • 一篇社会科学论文展示了 SPSS 表格,真实受访者的回答清晰可见。
  • 一本期刊教程展示了一个 Jupyter Notebook,真实用户记录作为示例行出现。

在每种情形中,作者的本意都是展示方法,个人记录只是为了使示例显得真实,并非刻意展示的内容。

但「并非本意」不等于安全。GDPR 第 4 条第 1 款规定,个人数据包括一切与已识别个人有关的信息。发表论文中的患者记录即为个人信息,无论其是否出现在截图中。未经当事人同意或第 6 条规定的合法依据而发表,即构成 GDPR 违规。

关于发表规则,请参阅 GDPR 合规概览

为何这会带来法律风险

研究机构如今面临更多 GDPR 执法,发表失当是关键触发因素。突出的风险有四类。

期刊撤稿。 第 17 条赋予个人删除权,这同样适用于已发表的记录。如果当事人在论文中发现自己的信息,可以要求删除。对期刊而言,这通常意味着撤稿,对研究人员的职业声誉影响深远。

伦理委员会的发现。 伦理委员会审查已发表作品并检查 GDPR 合规情况,已开始标记截图中含有个人记录的论文,这些标记会影响研究人员未来的研究申请。

数据访问协议违规。 研究数据集附有数据访问协议,规定了可发表的内容。含有个人记录的截图可能违反协议,通常的后果是失去数据集访问权限。

第 89 条的限制。 第 89 条允许将个人信息用于科学研究,并放宽了部分规则,但前提是存在适当的保障措施。在截图中展示个人记录而未进行去标识化,不构成保障措施,而是违规。

请参阅我们的保护与保障措施页面了解完整分析。

这种情况有多普遍?

这一问题并不罕见,在多个领域的已发表作品中均有出现。

几个因素推动了这一现象。

可重复性规范。 期刊要求详细说明方法,研究人员用截图来满足这一需求,但并不总会检查每张图片中可见的内容。

时间压力。 截止日期紧迫导致快速截图,没有时间逐一审查每张图片中是否含有暴露的记录。

图像内容不易察觉。 一个 DataFrame 可能有 20 列,姓名和 ID 可能出现在最右侧的列中。研究人员关注的是关键列,而非 ID 列。

投稿时无检查机制。 期刊投稿系统进行格式检查和查重,但不扫描图片中的个人实体,问题无法在论文发表前被标记出来。

研究机构的筛查工作流程

提交前的筛查流程可以防止这些问题发生,共七个步骤。

  1. 研究人员完成含所有图表的论文草稿。
  2. 草稿提交给内部审核人——PI 或隐私联系人。
  3. 对论文中所有图像文件运行图像 PII 检测。
  4. 报告标记含有可读文本且与个人实体模式匹配的图像。
  5. 研究人员审查标记图像。
  6. 对每张标记图像:替换为干净的截图,将患者 ID 12847 替换为 ID 00001,将真实姓名替换为「患者 A」。
  7. 最终稿以干净图像投稿。

技术方案:

  • 手动: 导出论文图像,运行批量 PII 检测,审查报告。
  • 半自动化: 使用共享草稿文件夹,每周对新文件自动运行批量处理。
  • 工作流程集成: 在投稿门户添加筛查步骤。

筛查速度很快:对一篇有 15 张图表的论文进行图像 PII 检测,不到两分钟。撤稿则需要数月。

关于检测功能的常见问题,请访问 FAQ术语表

案例研究:欧洲某高校

一个研究团队在论文工作流程中加入了图像 PII 筛查,起因是一次险些出现的失误:一篇正在评审的论文的 DataFrame 截图中含有患者姓名。

他们的做法:

  • 所有草稿在投稿前进行图像 PII 处理。
  • 筛查范围涵盖每篇草稿中的所有 PNG、JPG 和 PDF 图表。
  • 由隐私联系人审查结果。

六个月数据:

  • 筛查了 23 篇论文。
  • 7 篇论文(30%)至少有一张含个人实体的图像。
  • 发现类型:DataFrame 中的患者姓名(4 篇)、与患者格式匹配的用户 ID(2 篇)、截图边距中的电子邮件地址(1 篇)。
  • 7 篇均在投稿前完成修改。
  • 投稿后零撤稿请求,零伦理委员会发现。

伦理委员会现将这一工作流程引用为第 89 条下「适当保障措施」的典范,并支持该团队未来的研究豁免申请。

阅读创始人声明,了解 anonym.legal 为何正是为解决这类问题而生。

参考资料

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.