By · Last updated 2026-05-31

返回博客GDPR 与合规

超越SSN:机构内部ID的匿名化处理

每个组织都有内部标识符——员工ID、账户号码、订单ID——在特定上下文中可以关联到个人,但通用PII工具对此视而不见。自定义实体配置可在数小时内消除这一漏洞,无需工程支持。

May 31, 20267 分钟阅读
custom PII detectionorganizational identifiersre-identification riskGDPR pseudonymizationcustom entity

超越SSN:匿名化您组织的内部ID

您的GDPR工具删除了电子邮件地址、电话号码和姓名。您将客服导出数据通过工具处理后,分享给了分析团队。

但每张工单中客户账户号码仍在,订单ID仍在,内部用户ID也仍在。

这些ID单独看似乎无害,没有对照表,无法关联到具体的人。但您的分析团队有那张对照表,您的CRM有,您的客服数据库也有。任何有访问权限的人都能在数秒内找到对应的个人。

这是一次GDPR违规。工具没有失效,它只是从未被告知要查找您的ID。

通用PII工具能检测什么

通用PII工具覆盖的是通用格式——每个组织都在使用的标识符类型。

通用工具可以检测:

  • 社会安全号码(美国SSN、英国NINO、欧盟国家身份证格式)
  • 电子邮件地址
  • 电话号码
  • 信用卡号码
  • 姓名
  • 护照和驾照号码

通用工具无法检测:

  • 您的EMP-XXXXX格式员工ID
  • 您的ACC-XXXXXXXX-XX格式客户账户号码
  • 您的ORD-XXXXXXX格式订单ID
  • UUID或自定义格式的内部用户ID
  • 合作伙伴专属参考代码

通用工具识别通用格式,而您的内部ID并不通用,需要自定义配置才能被发现。

重新识别风险

某公司导出支持工单用于质量审核,标准PII处理删除了姓名、邮件和电话号码,但ACC-XXXXXXXX-XX格式的账户号码未被处理。

导出数据送至分析团队,某分析师通过账户号码将工单表与客户数据库进行关联,立刻找到了对应人员,不需要任何特殊技巧,只是一个常规的SQL关联查询。

GDPR第4(5)条将假名化定义为「在不使用额外信息的情况下,数据不再能归因于特定数据主体」的处理方式。账户号码无法通过这一测试——额外信息(即客户数据库)就在您组织内部。

这份「匿名化」的导出数据根本就不是匿名的。

构建自定义实体格式

自定义实体配置速度很快,合规团队无需工程支持即可完成。

第一步:列出您的ID格式。

逐一写下每种格式。例如:账户ACC-XXXXXXXX-XX、订单ID ORD-XXXXXXX、员工ID EMP-XXXXX。

第二步:用简单语言描述格式。

「账户号码以ACC开头,接一个连字符,然后是8位数字,再接一个连字符,最后是2个大写字母。」

AI辅助格式生成返回:ACC-\d{8}-[A-Z]{2}

第三步:在样本数据上测试。

上传20至30份文件,确认所有实例均被发现,确认没有误报。

第四步:选择处理方法。

对于用作关联键、分析需要链接记录的ID:

  • 假名化。 将ACC-00123456-AB每次替换为ACC-99876543-XY,相同的输入总是产生相同的输出,关联分析仍然有效,但没有密钥就无法还原原始值。

对于分析中不需要的ID:

  • 编辑。 替换为**[REDACTED]**,简单且永久。

第五步:保存为共享预设。

将自定义实体(或一组实体)保存到共享预设,配置适用于所有使用场景:批量上传、API调用、浏览器界面。新团队成员可立即获得完整配置。

案例研究:18万张支持工单

某公司在分析数据仓库中发现了18万张支持工单,姓名和电子邮件已被删除,但账户号码没有。每张工单仍包含有效的ACC-XXXXXXXX-XX值。

处理时间线:

  1. 合规负责人定义ACC格式——15分钟
  2. 在30张样本工单上测试——20分钟
  3. 确认准确性——10分钟
  4. 在夜间批量处理18万张工单
  5. 用清洁版本替换数据仓库中的表

合规负责人的总用时:45分钟。若没有自定义实体支持,修复需要提工程需求单、代码审查和部署,耗时数周而非数小时。

如需深入了解自定义ID在AI客服工具中如何产生风险,请参阅GDPR与客服AI指南

自定义ID的传播范围

内部ID出现的地方比大多数团队预想的要多。

内部文件:

  • 包含账户或订单ID引用的会议记录
  • 讨论客户案例的电子邮件线程
  • 包含案例研究数据的演示文稿

与第三方共享:

  • 包含案件参考号的监管机构报告
  • 包含客户参考信息的审计文件
  • 携带客户ID的供应商文件

研究与分析:

  • 客户旅程数据集
  • 客服质量审核导出数据
  • 内部机器学习模型训练数据

每种情境都需要相同的自定义实体配置,才能产生真正匿名的输出。

假名化与匿名化

GDPR划定了明确界限。

假名化用替代值代替ID。如果有人持有对照表,原始个人仍可被找到。这类数据仍属于个人数据,可以降低风险,但不能解除您的GDPR义务。

匿名化消除了重新识别的可能性。匿名数据不属于个人数据,GDPR不适用。

当对照表存在时,账户号码和订单ID属于假名数据。用固定替代值替换它们可以降低风险,但GDPR仍然适用。用随机token替换并删除密钥,可以解除GDPR义务,但会破坏基于关联的分析。

与没有对照表的第三方共享时:假名化可能已足够。用于内部分析时:需要完全匿名化或严格的访问控制。法律合规指南介绍了如何为您的处理活动记录(ROPA)记录每种方法。

结论

这不是工具的失效,而是配置的缺失。没有任何工具能够知晓您的账户号码格式,除非您告诉它。

自定义实体配置可在数小时内消除这一漏洞。合规团队定义格式,在样本数据上测试,然后在所有使用模式中应用,无需工程支持。

那18万张未编辑账户号码的存在,不是因为工具失效,而是因为工具从未被告知要查找它们。

参考资料

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.