超越SSN:匿名化您组织的内部ID
您的GDPR工具删除了电子邮件地址、电话号码和姓名。您将客服导出数据通过工具处理后,分享给了分析团队。
但每张工单中客户账户号码仍在,订单ID仍在,内部用户ID也仍在。
这些ID单独看似乎无害,没有对照表,无法关联到具体的人。但您的分析团队有那张对照表,您的CRM有,您的客服数据库也有。任何有访问权限的人都能在数秒内找到对应的个人。
这是一次GDPR违规。工具没有失效,它只是从未被告知要查找您的ID。
通用PII工具能检测什么
通用PII工具覆盖的是通用格式——每个组织都在使用的标识符类型。
通用工具可以检测:
- 社会安全号码(美国SSN、英国NINO、欧盟国家身份证格式)
- 电子邮件地址
- 电话号码
- 信用卡号码
- 姓名
- 护照和驾照号码
通用工具无法检测:
- 您的EMP-XXXXX格式员工ID
- 您的ACC-XXXXXXXX-XX格式客户账户号码
- 您的ORD-XXXXXXX格式订单ID
- UUID或自定义格式的内部用户ID
- 合作伙伴专属参考代码
通用工具识别通用格式,而您的内部ID并不通用,需要自定义配置才能被发现。
重新识别风险
某公司导出支持工单用于质量审核,标准PII处理删除了姓名、邮件和电话号码,但ACC-XXXXXXXX-XX格式的账户号码未被处理。
导出数据送至分析团队,某分析师通过账户号码将工单表与客户数据库进行关联,立刻找到了对应人员,不需要任何特殊技巧,只是一个常规的SQL关联查询。
GDPR第4(5)条将假名化定义为「在不使用额外信息的情况下,数据不再能归因于特定数据主体」的处理方式。账户号码无法通过这一测试——额外信息(即客户数据库)就在您组织内部。
这份「匿名化」的导出数据根本就不是匿名的。
构建自定义实体格式
自定义实体配置速度很快,合规团队无需工程支持即可完成。
第一步:列出您的ID格式。
逐一写下每种格式。例如:账户ACC-XXXXXXXX-XX、订单ID ORD-XXXXXXX、员工ID EMP-XXXXX。
第二步:用简单语言描述格式。
「账户号码以ACC开头,接一个连字符,然后是8位数字,再接一个连字符,最后是2个大写字母。」
AI辅助格式生成返回:ACC-\d{8}-[A-Z]{2}
第三步:在样本数据上测试。
上传20至30份文件,确认所有实例均被发现,确认没有误报。
第四步:选择处理方法。
对于用作关联键、分析需要链接记录的ID:
- 假名化。 将ACC-00123456-AB每次替换为ACC-99876543-XY,相同的输入总是产生相同的输出,关联分析仍然有效,但没有密钥就无法还原原始值。
对于分析中不需要的ID:
- 编辑。 替换为**[REDACTED]**,简单且永久。
第五步:保存为共享预设。
将自定义实体(或一组实体)保存到共享预设,配置适用于所有使用场景:批量上传、API调用、浏览器界面。新团队成员可立即获得完整配置。
案例研究:18万张支持工单
某公司在分析数据仓库中发现了18万张支持工单,姓名和电子邮件已被删除,但账户号码没有。每张工单仍包含有效的ACC-XXXXXXXX-XX值。
处理时间线:
- 合规负责人定义ACC格式——15分钟
- 在30张样本工单上测试——20分钟
- 确认准确性——10分钟
- 在夜间批量处理18万张工单
- 用清洁版本替换数据仓库中的表
合规负责人的总用时:45分钟。若没有自定义实体支持,修复需要提工程需求单、代码审查和部署,耗时数周而非数小时。
如需深入了解自定义ID在AI客服工具中如何产生风险,请参阅GDPR与客服AI指南。
自定义ID的传播范围
内部ID出现的地方比大多数团队预想的要多。
内部文件:
- 包含账户或订单ID引用的会议记录
- 讨论客户案例的电子邮件线程
- 包含案例研究数据的演示文稿
与第三方共享:
- 包含案件参考号的监管机构报告
- 包含客户参考信息的审计文件
- 携带客户ID的供应商文件
研究与分析:
- 客户旅程数据集
- 客服质量审核导出数据
- 内部机器学习模型训练数据
每种情境都需要相同的自定义实体配置,才能产生真正匿名的输出。
假名化与匿名化
GDPR划定了明确界限。
假名化用替代值代替ID。如果有人持有对照表,原始个人仍可被找到。这类数据仍属于个人数据,可以降低风险,但不能解除您的GDPR义务。
匿名化消除了重新识别的可能性。匿名数据不属于个人数据,GDPR不适用。
当对照表存在时,账户号码和订单ID属于假名数据。用固定替代值替换它们可以降低风险,但GDPR仍然适用。用随机token替换并删除密钥,可以解除GDPR义务,但会破坏基于关联的分析。
与没有对照表的第三方共享时:假名化可能已足够。用于内部分析时:需要完全匿名化或严格的访问控制。法律合规指南介绍了如何为您的处理活动记录(ROPA)记录每种方法。
结论
这不是工具的失效,而是配置的缺失。没有任何工具能够知晓您的账户号码格式,除非您告诉它。
自定义实体配置可在数小时内消除这一漏洞。合规团队定义格式,在样本数据上测试,然后在所有使用模式中应用,无需工程支持。
那18万张未编辑账户号码的存在,不是因为工具失效,而是因为工具从未被告知要查找它们。