超越SSN：匿名化您组织的内部ID

您的GDPR工具删除了电子邮件地址、电话号码和姓名。您将客服导出数据通过工具处理后，分享给了分析团队。

但每张工单中客户账户号码仍在，订单ID仍在，内部用户ID也仍在。

这些ID单独看似乎无害，没有对照表，无法关联到具体的人。但您的分析团队有那张对照表，您的CRM有，您的客服数据库也有。任何有访问权限的人都能在数秒内找到对应的个人。

这是一次GDPR违规。工具没有失效，它只是从未被告知要查找您的ID。

通用PII工具能检测什么

通用PII工具覆盖的是通用格式——每个组织都在使用的标识符类型。

通用工具可以检测：

社会安全号码（美国SSN、英国NINO、欧盟国家身份证格式）
电子邮件地址
电话号码
信用卡号码
姓名
护照和驾照号码

通用工具无法检测：

您的EMP-XXXXX格式员工ID
您的ACC-XXXXXXXX-XX格式客户账户号码
您的ORD-XXXXXXX格式订单ID
UUID或自定义格式的内部用户ID
合作伙伴专属参考代码

通用工具识别通用格式，而您的内部ID并不通用，需要自定义配置才能被发现。

重新识别风险

某公司导出支持工单用于质量审核，标准PII处理删除了姓名、邮件和电话号码，但ACC-XXXXXXXX-XX格式的账户号码未被处理。

导出数据送至分析团队，某分析师通过账户号码将工单表与客户数据库进行关联，立刻找到了对应人员，不需要任何特殊技巧，只是一个常规的SQL关联查询。

GDPR第4(5)条将假名化定义为「在不使用额外信息的情况下，数据不再能归因于特定数据主体」的处理方式。账户号码无法通过这一测试——额外信息（即客户数据库）就在您组织内部。

这份「匿名化」的导出数据根本就不是匿名的。

构建自定义实体格式

自定义实体配置速度很快，合规团队无需工程支持即可完成。

第一步：列出您的ID格式。

逐一写下每种格式。例如：账户ACC-XXXXXXXX-XX、订单ID ORD-XXXXXXX、员工ID EMP-XXXXX。

第二步：用简单语言描述格式。

「账户号码以ACC开头，接一个连字符，然后是8位数字，再接一个连字符，最后是2个大写字母。」

AI辅助格式生成返回：ACC-\d{8}-[A-Z]{2}

第三步：在样本数据上测试。

上传20至30份文件，确认所有实例均被发现，确认没有误报。

第四步：选择处理方法。

对于用作关联键、分析需要链接记录的ID：

假名化。 将ACC-00123456-AB每次替换为ACC-99876543-XY，相同的输入总是产生相同的输出，关联分析仍然有效，但没有密钥就无法还原原始值。

对于分析中不需要的ID：

编辑。 替换为**[REDACTED]**，简单且永久。

第五步：保存为共享预设。

将自定义实体（或一组实体）保存到共享预设，配置适用于所有使用场景：批量上传、API调用、浏览器界面。新团队成员可立即获得完整配置。

案例研究：18万张支持工单

某公司在分析数据仓库中发现了18万张支持工单，姓名和电子邮件已被删除，但账户号码没有。每张工单仍包含有效的ACC-XXXXXXXX-XX值。

处理时间线：

合规负责人定义ACC格式——15分钟
在30张样本工单上测试——20分钟
确认准确性——10分钟
在夜间批量处理18万张工单
用清洁版本替换数据仓库中的表

合规负责人的总用时：45分钟。若没有自定义实体支持，修复需要提工程需求单、代码审查和部署，耗时数周而非数小时。

如需深入了解自定义ID在AI客服工具中如何产生风险，请参阅GDPR与客服AI指南。

自定义ID的传播范围

内部ID出现的地方比大多数团队预想的要多。

内部文件：

包含账户或订单ID引用的会议记录
讨论客户案例的电子邮件线程
包含案例研究数据的演示文稿

与第三方共享：

包含案件参考号的监管机构报告
包含客户参考信息的审计文件
携带客户ID的供应商文件

研究与分析：

客户旅程数据集
客服质量审核导出数据
内部机器学习模型训练数据

每种情境都需要相同的自定义实体配置，才能产生真正匿名的输出。

假名化与匿名化

GDPR划定了明确界限。

假名化用替代值代替ID。如果有人持有对照表，原始个人仍可被找到。这类数据仍属于个人数据，可以降低风险，但不能解除您的GDPR义务。

匿名化消除了重新识别的可能性。匿名数据不属于个人数据，GDPR不适用。

当对照表存在时，账户号码和订单ID属于假名数据。用固定替代值替换它们可以降低风险，但GDPR仍然适用。用随机token替换并删除密钥，可以解除GDPR义务，但会破坏基于关联的分析。

与没有对照表的第三方共享时：假名化可能已足够。用于内部分析时：需要完全匿名化或严格的访问控制。法律合规指南介绍了如何为您的处理活动记录（ROPA）记录每种方法。

结论

这不是工具的失效，而是配置的缺失。没有任何工具能够知晓您的账户号码格式，除非您告诉它。

自定义实体配置可在数小时内消除这一漏洞。合规团队定义格式，在样本数据上测试，然后在所有使用模式中应用，无需工程支持。

那18万张未编辑账户号码的存在，不是因为工具失效，而是因为工具从未被告知要查找它们。

参考资料

准备好保护您的数据了吗？

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

开始免费试用查看功能

超越SSN：机构内部ID的匿名化处理

超越SSN：匿名化您组织的内部ID

通用PII工具能检测什么

重新识别风险

构建自定义实体格式

案例研究：18万张支持工单

自定义ID的传播范围

假名化与匿名化

结论

参考资料

相关文章

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

准备好保护您的数据了吗？

超越SSN：机构内部ID的匿名化处理

超越SSN：匿名化您组织的内部ID

通用PII工具能检测什么

重新识别风险

构建自定义实体格式

案例研究：18万张支持工单

自定义ID的传播范围

假名化与匿名化

结论

参考资料

相关文章

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

准备好保护您的数据了吗？

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow