二值 PII 检测为何无法满足合规要求

2026 年更新版

每一个 PII 工具都面临同一个根本难题：同一字符串在不同场景下可能是个人数据，也可能不是。

客户档案中的「张伟」是数据主体；讲述某位历史人物的文章里同名同姓的「张伟」却不是。医疗记录中的九位数字是 HIPAA 编码，产品代码中相同的九位数字却不是。

「是/否」标记无法处理这种情况，它只能逼你做出两种糟糕选择：脱敏所有可能是 PII 的字符串，或者只脱敏确定无疑的匹配。这两种做法在法律层面都站不住脚，因为每一个决定都必须清晰且有文档支撑。

每个实体 0 到 100 的置信度分数提供了第三条路：驱动分级规则、人工审核队列和完整的审计记录。

「是/否」标记的局限

上下文决定数据的含义，两份文件可以包含相同的字符串，在一份文件中它是个人数据，在另一份中却不是。标记无法区分这种差异，而数字可以。

只有标记的情况下，你的两个选项都是错的：过度脱敏损害文件价值，脱敏不足带来法律风险，两者都无法在法庭上站稳脚跟。

法律取证：为何必须使用评分

法律取证程序的规则使评分检测成为必要。

过度脱敏问题。 脱敏律师姓名或法庭引文会损害证据完整性，法庭已对过度脱敏的律师进行制裁，适用的判例法与处理脱敏不足的相同。

脱敏不足问题。 遗漏真实 PII 会带来风险，包括客户隐私泄露、律师纪律申诉，在某些地区甚至可能面临刑事指控。

解释每项决定的必要性。 当法庭追问某项内容为何被脱敏时，律师必须给出解释。「工具标记了它」远远不够。「工具以 94% 的置信度将此项识别为社会安全号，我们的规则对 85% 以上的内容自动脱敏。」这才足够。

「是/否」标记给不出这样的答案，而带有固定规则的评分工具可以。另请参阅：在法庭上为脱敏辩护：AI 评分的应用。

三级审核体系

最有效的配置基于实体评分建立三个层级。

第一级 — 自动处理（85% 以上）：

符合高确定性格式的项目（社会安全号、IBAN、病历号）
无需人工步骤，自动脱敏
日志记录实体类型、评分、处理方式和时间戳
示例：「571-44-9283」以 97% 的置信度识别为社会安全号——自动脱敏

第二级 — 人工审核（50% 至 85%）：

可能是 PII 但需要人工判断的项目
发送给审核员进行接受、拒绝或重新分类
日志记录实体类型、评分、审核员 ID、决定和时间戳
示例：技术文档中「张伟」以 67% 的置信度识别——审核员确认为姓名——执行脱敏

第三级 — 仅作提示（50% 以下）：

低确定性项目，显示为参考提示
不自动脱敏，审核员可操作或跳过
日志记录实体类型、评分和审核员选择
示例：产品文档中「某某公司」以 42% 的置信度识别——审核员发现这是企业名称——不执行脱敏

只有第二级需要人工介入，三个层级均生成审计记录。

评分如何生成

PII 工具组合多种信号生成每个实体的单一分数。

正则表达式模式。 精确的社会安全号格式匹配获得较高基础分，部分匹配获得较低分。

模型输出。 命名实体模型为每个类别分配概率，PERSON 类 0.93 的分数产生高确定性结果。

上下文信号。 实体周围的文本会调整评分，「我的社会安全号是 571-44-9283」会提高评分，「产品代码 571-44-9283」会降低评分。

集成规则。 系统以设定权重组合正则、模型和上下文信号，最终数字反映所有证据的综合判断。

这个数字驱动工作流中的每一项阈值决策。关于「是/否」工具的误报问题，请参阅：PII 工具的误报代价。

保险理赔：真实案例

保险文件混合了明确的 PII（投保人姓名、地址、社会安全号）和依赖上下文的数据：目击证人姓名、公司名称、理赔专员签名。

「是/否」工具要么脱敏所有姓名（对公司名称而言是错误的），要么遗漏目击证人姓名（带来风险）。评分工具对每个项目独立处理：

标注「投保人社会安全号」的社会安全号，置信度 96%——自动脱敏
标注 PERSON 的投保人姓名，置信度 91%——自动脱敏
标注 ORG 的承包商公司，置信度 78%——人工审核——审核员拒绝脱敏
标注 PERSON 的目击证人姓名，置信度 82%——人工审核——审核员接受
标注 PERSON 的理赔专员姓名，置信度 71%——人工审核——审核员接受（第三方数据）

每个决定都有数值依据，审计追踪完整无缺。

构建合规记录

对于 GDPR 第 5 条第 1 款 (f) 项和 HIPAA 安全规则，评分工具会自动生成合规记录。

实体级别审计记录：捕获实体类型、评分、决定类型（自动或人工）、审核员 ID 和时间戳，可导出为 CSV 供数据保护机构查询使用。

阈值记录：记录当前设置和每次变更，每次变更包含变更人、变更时间和变更原因，证明这是一项有意为之、经过管理的政策。

统计报告：涵盖按实体类型的检测率、第二级审核率和否决率，可回应数据保护机构「向我们展示你们的控制措施」的要求。

关于 HIPAA 审计追踪指南，请参阅：可解释脱敏：HIPAA 审计。

「是/否」标记是猜测，评分才是证据。

参考资料

准备好保护您的数据了吗？

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

开始免费试用查看功能

二值 PII 检测为何无法满足合规要求