By · Last updated 2026-06-06

返回博客人工智能安全

实时 PII 拦截:在 AI 数据泄露发生前将其阻断

员工向 ChatGPT 输入客户姓名的那一刻,数据便脱离了组织的掌控。事后 DLP 工具无法让这口钟「哑火」。

June 6, 20267 分钟阅读
AI data preventionChatGPT PIIreal-time anonymizationDLP alternativeChrome Extension

实时 PII 拦截:在 AI 数据泄露发生前将其阻断

2026 年更新版

2023 年 3 月,三星的一名工程师将源代码粘贴到 ChatGPT。代码在那一刻便脱离了三星的掌控,没有任何工具能及时拦截。这一事件证明,事后安全控制无法阻止 AI 数据泄露。

检测工具只能告诉你事后发生了什么。日志审查、端点 DLP 和审计日志都是如此。对于 AI 泄露,「事后」已经太晚——数据早已到达 AI 模型。

问题的规模

2025 年 Cyberhaven 研究报告追踪了企业 AI 使用情况,结论触目惊心。

  • 11% 的 ChatGPT 提示词包含私密或敏感数据。
  • 普通员工每天使用 AI 工具 14 次。
  • 高频用户每天交互 30 至 50 次。
  • 按 11% 的比例计算,每名员工每天有 3 至 5 次敏感数据发送。

对于拥有 500 名高频用户的企业,每天将产生 2000 余次敏感数据发送,每一次都可能构成 GDPR 第 83 条违规。法律风险之外,声誉和信任同样岌岌可危。

AI 提示词中常见的敏感内容类型包括:

  • 客户姓名与联系方式。
  • 账户号码和支付记录。
  • 医护人员的病历记录。
  • 律师的案件详情。
  • HR 团队的员工绩效记录。
  • 内部营收或销售预测。

该研究未区分主动分享与意外分享,两者产生的法律风险相同。忘记删除客户姓名的员工与忽视规定的员工,造成的泄露结果别无二致。意图不改变后果。

为何检测方案不够用

网络检测无法在不进行 TLS 解密的情况下读取 HTTPS 流量,TLS 解密会增加开销并引发隐私顾虑,现代浏览器通常会拒绝此类操作。

端点 DLP 代理监控剪贴板和键盘输入,但存在延迟——当代理标记某条模式时,提示词可能已经发送。

供应商审计日志记录的是数据共享之后发生的事,有助于事后响应,但无法阻止泄露。

员工培训是一项组织政策,而非技术控制。Cyberhaven 研究显示,即便在有明确政策的企业,仍有 11% 的提示词包含敏感数据。培训无法阻止意外分享或工作中的注意力疏失。

封锁 AI 工具会抹杀生产力提升效益。员工随后会在个人设备或账户上使用,使工作内容完全脱离监管视野。

上述方法都无法实时阻止敏感内容到达 AI 系统。

在入口处进行拦截

唯一可靠的防御:在提示词发送之前完成脱敏。将「[PERSON_1]」替换客户姓名后再离开浏览器,AI 模型便永远看不到真实信息。

内联脱敏的工作流程如下:

  1. 员工在 Claude 或 ChatGPT 中输入客户邮箱。
  2. 浏览器插件实时检测到个人数据。
  3. 实体以类型标签标注:PERSON、EMAIL_ADDRESS、ACCOUNT_NUMBER。
  4. 员工审阅标注内容。
  5. 一键将所有实体替换为令牌。
  6. 发送脱敏后的提示词。

AI 收到的提示词类似:「客户 [PERSON_1] 邮箱为 [EMAIL_1],账户编号 [ACCOUNT_1]。」

AI 处理请求,从未接触真实姓名和数字;员工通过上下文了解实际客户信息。

这一方案具有明显优势:

  • 个人数据不会进入外部 AI 系统。
  • 客户详情不会被纳入 AI 训练数据集。
  • 员工保留 AI 工具访问权限,生产效率不受影响。

该方案无法阻止员工主动绕过工具进行故意分享,文件上传也需要独立的处理流程。没有任何控制措施是完美的,但内联脱敏消除了意外分享这一最大风险源,大幅降低整体风险,同时不改变日常工作流程。

律所案例研究

某律所的员工使用 Claude 起草合同摘要,方法是:复制合同段落,粘贴到 Claude,请求生成摘要。

使用 Chrome 扩展前的前 6 个月:

  • 审查期间发现 3 起客户数据事件。
  • 每起事件:提示词中出现客户姓名加案件参考编号。
  • 3 起均属意外。

使用 Chrome 扩展后的 6 个月:

  • 零起客户数据事件。
  • 粘贴含客户姓名的段落时,员工实时收到提示。
  • 一键将「Johnson Controls 案 2024-0347」替换为「[PERSON_1][REFERENCE_1]」。
  • 工作方式保持不变。

管理合伙人表示:「员工在使用插件之前就知道政策内容,插件让合规成为了最顺畅的选择。」

了解其他团队的处理方式,请参阅案例研究;查看技术控制详情,请访问安全概览

GDPR 合规记录

使用基于浏览器的 AI 脱敏工具的企业,须将其作为技术控制措施记录在案。

处理活动记录(ROPA): 说明 AI 提示词在到达供应商前经过了客户端脱敏处理,列明实体类型、引擎版本和部署日志作为证明材料。

数据处理协议: 当个人数据从未到达 AI 供应商时,DPA 义务大幅简化——你持有的个人数据从未离开你的系统。

审计日志: 插件日志记录每次会话的实体数量、脱敏率和按类型统计的实体数量,这些指标可直接输入合规报告。

GDPR 对 AI 工具的适用规则,请参阅法律合规指南术语表,常见问题请查看 FAQ

结语

三星事件证明,AI 泄露的发生速度超过任何事后控制的响应速度。Cyberhaven 研究给出了具体数字:11% 的提示词,每名员工每天多次,日复一日。

发送前的实时脱敏从根本上解决问题。当个人数据从未到达 AI,就没有任何东西需要检测、记录或清理。员工保留了 AI 工具,企业保持了合规状态。

检测只能告诉你拦截在何时失败。对于 AI 数据泄露,失败的代价——罚款、声誉损失、信任崩塌——充分说明了预防优先的必要性。

查看适合你企业的定价方案,阅读创始人声明了解为何「预防优先」是我们的核心设计理念。

参考资料

  • Cyberhaven:AI 数据泄露研究 2025 — cyberhaven.com。
  • 三星 ChatGPT 数据泄露事件,2023 年 3 月 — Bloomberg。
  • GDPR 第 4 条和第 32 条:个人数据与技术措施 — gdpr-info.eu。

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.