By · Last updated 2026-06-05

返回博客人工智能安全

内部 Wiki 中的 PII:Confluence 客户数据风险

支持团队用含客户账户截图记录操作流程,三年下来,您的知识库中可能已积累数千次 GDPR 数据最小化违规。

June 5, 20266 分钟阅读
Confluence GDPRinternal wiki PIIcustomer datadocumentation privacydata minimization

内部知识库中的截图 PII

内部知识库——Confluence、Notion、SharePoint、GitBook——中存在一类标准合规工具无法发现的特定 PII 问题:嵌入在流程文档截图中的客户个人数据。

这种模式在成千上万个支持和运营团队中不断上演。

客服专员发现了一个不寻常的账户配置,截取了客户账户页面的截图来记录问题——截图中显示界面标题处的客户姓名、账户设置中的邮箱,以及订阅方案详情。

文章在内部知识库上线。150 名客服专员现在可以查看,外部服务台的 12 名承包商也可以查看。文章很有价值,展示了如何处理这类边缘案例,未来遇到类似配置的每位专员都会来查阅。

三年后,知识库中已有 847 篇类似文章,每篇都含有客户账户截图。被展示的客户从未同意将其记录用于这一二次用途,大多数人甚至不知道自己的数据存储于此。

这不是小问题,它随着每篇新文章不断扩大。

GDPR 风险:为何重要

对知识库截图的 GDPR 分析直截了当。

数据最小化(第 5 条第 1 款 (c) 项): 个人数据必须「充分、相关,且仅限于目的所必要的范围」。一篇关于账户配置的知识库文章不需要真实客户的姓名和邮箱——模糊处理的截图同样能说明问题。纳入真实客户数据并非必要之举。

目的限制(第 5 条第 1 款 (b) 项): 为某一目的收集的数据——客户服务——未经合法依据不得用于另一目的——内部流程文档。账户记录是为服务交付而收集的,而非用于内部文档,这是两种不同的处理目的,同时用于两者需要多数团队尚未建立的合法依据。

访问控制(第 5 条第 1 款 (f) 项和第 32 条): 必须采取适当技术措施保护个人数据。对 150 名专员和承包商(包括那些本无权访问底层账户系统的人员)全部开放的客户账户截图,制造了过于宽泛的访问权限。

删除权(第 17 条): 请求删除的数据主体有权「无不当延迟」地得到处理。如果其数据以嵌入截图的形式出现在 23 篇知识库文章中,处理请求就需要找到并更新这 23 篇文章——没有系统支持,这几乎无法实现。我们的 GDPR 删除权指南详细介绍了操作步骤。

上述解读都不是边缘情形,而是将法规条文直接适用于普遍实践的结果。

访问控制被绕过

Confluence 截图带来的最严重合规问题,在于它们所制造的访问控制绕过。

支持团队使用基于角色的访问控制(RBAC)来限制谁可以查看客户账户系统:一级专员查看基本账户信息,二级专员查看账单和技术记录,管理人员查看完整账户档案。

当一名二级专员创建包含完整客户账户截图的知识库文章时,该截图立即对所有工具用户可见:本不应查看账单记录的一级专员现在可以看到,没有系统访问权限的承包商也可以看到,入职培训中的新员工也可以看到。

截图绕过了客户账户系统上的 RBAC 管控。RBAC 本来是为了保护的个人数据,如今对所有有知识库访问权限的人员敞开了大门。

这不是假设性风险,而是日常文档工作流程的正常结果。那张截图在那里,没有有效期,没有访问日志,没有审计追踪。

实际整改步骤

对于在 GDPR 审计中发现这一问题的团队:

追溯整改:

  1. 识别所有含图片附件的知识库页面
  2. 对每个附件运行图像 PII 检测
  3. 审查标记图像:高置信度命中进入审核队列
  4. 对每张标记图像:替换为处理后的版本或限制页面访问权限
  5. 记录整改操作以备 GDPR 审计

追溯工作的规模取决于知识库的大小。对于一个 50 人支持团队使用三年的知识库,图像数量可能达到数千张。批量图像处理使这成为可能,而对标记图像的人工审核是主要瓶颈。

前瞻性管控:

  1. 培训所有支持人员在发布到知识库前对截图进行脱敏
  2. 提供工具:在粘贴前对客户姓名进行模糊处理的截图标注工具
  3. 增加审核步骤:指定审核人在发布前检查文章,专门查找图像中的客户 PII
  4. 每季度对所有 Confluence 附件运行批量图像扫描

最低可行管控: 发布检查清单:「在发布前删除或模糊处理截图中的所有客户姓名、邮箱和账户 ID。」技术含量低,无自动化,但形成了有文可查的管控措施。对于小团队,这是起点。

请参阅我们的 GDPR 合规概览了解更宏观的法律框架,以及为何没有技术管控的政策会失效了解仅依靠检查清单的方法在规模化时为何行不通。

问题为何随时间愈演愈烈

缺乏系统性管控,知识库中的 PII 风险会不断积累。

体量增长: 每篇含有客户截图的新文章都在增加总体风险敞口。随着支持团队扩张和知识库扩大,积累的 PII 也在增长。这些工具之所以有价值——发布便捷、内容永久保存、访问范围广——恰恰也是 PII 问题不断恶化的原因。

被遗忘的文章: 关于不再常见的边缘案例的文章依然可以访问,其中含有已提交删除请求的客户信息。没有人会去检查一篇上次更新于 2022 年的文章。

跨团队扩散: 知识库往往跨部门共享。含有客户截图的支持文章可能被分享给产品团队、工程团队或外部承包商,为功能需求或缺陷报告提供背景。每次分享都扩大了个人数据的受众范围。

删除请求积压: 随着越来越多的客户记录堆积在知识库中,响应删除请求变得愈加复杂。没有系统支持,就无法可靠地确认数据主体的每一条记录都已被找到并删除,团队无法作出可信的删除证明。

知识库 PII 防患于未然远比事后修复容易。现在建立的管控措施能避免未来不断累积的整改负担,每篇发布时未对截图模糊处理的文章,都是推迟到未来的一项整改任务。

参考资料

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.