二值 PII 检测为何无法满足合规要求
2026 年更新版
每一个 PII 工具都面临同一个根本难题:同一字符串在不同场景下可能是个人数据,也可能不是。
客户档案中的「张伟」是数据主体;讲述某位历史人物的文章里同名同姓的「张伟」却不是。医疗记录中的九位数字是 HIPAA 编码,产品代码中相同的九位数字却不是。
「是/否」标记无法处理这种情况,它只能逼你做出两种糟糕选择:脱敏所有可能是 PII 的字符串,或者只脱敏确定无疑的匹配。这两种做法在法律层面都站不住脚,因为每一个决定都必须清晰且有文档支撑。
每个实体 0 到 100 的置信度分数提供了第三条路:驱动分级规则、人工审核队列和完整的审计记录。
「是/否」标记的局限
上下文决定数据的含义,两份文件可以包含相同的字符串,在一份文件中它是个人数据,在另一份中却不是。标记无法区分这种差异,而数字可以。
只有标记的情况下,你的两个选项都是错的:过度脱敏损害文件价值,脱敏不足带来法律风险,两者都无法在法庭上站稳脚跟。
法律取证:为何必须使用评分
法律取证程序的规则使评分检测成为必要。
过度脱敏问题。 脱敏律师姓名或法庭引文会损害证据完整性,法庭已对过度脱敏的律师进行制裁,适用的判例法与处理脱敏不足的相同。
脱敏不足问题。 遗漏真实 PII 会带来风险,包括客户隐私泄露、律师纪律申诉,在某些地区甚至可能面临刑事指控。
解释每项决定的必要性。 当法庭追问某项内容为何被脱敏时,律师必须给出解释。「工具标记了它」远远不够。「工具以 94% 的置信度将此项识别为社会安全号,我们的规则对 85% 以上的内容自动脱敏。」这才足够。
「是/否」标记给不出这样的答案,而带有固定规则的评分工具可以。另请参阅:在法庭上为脱敏辩护:AI 评分的应用。
三级审核体系
最有效的配置基于实体评分建立三个层级。
第一级 — 自动处理(85% 以上):
- 符合高确定性格式的项目(社会安全号、IBAN、病历号)
- 无需人工步骤,自动脱敏
- 日志记录实体类型、评分、处理方式和时间戳
- 示例:「571-44-9283」以 97% 的置信度识别为社会安全号——自动脱敏
第二级 — 人工审核(50% 至 85%):
- 可能是 PII 但需要人工判断的项目
- 发送给审核员进行接受、拒绝或重新分类
- 日志记录实体类型、评分、审核员 ID、决定和时间戳
- 示例:技术文档中「张伟」以 67% 的置信度识别——审核员确认为姓名——执行脱敏
第三级 — 仅作提示(50% 以下):
- 低确定性项目,显示为参考提示
- 不自动脱敏,审核员可操作或跳过
- 日志记录实体类型、评分和审核员选择
- 示例:产品文档中「某某公司」以 42% 的置信度识别——审核员发现这是企业名称——不执行脱敏
只有第二级需要人工介入,三个层级均生成审计记录。
评分如何生成
PII 工具组合多种信号生成每个实体的单一分数。
正则表达式模式。 精确的社会安全号格式匹配获得较高基础分,部分匹配获得较低分。
模型输出。 命名实体模型为每个类别分配概率,PERSON 类 0.93 的分数产生高确定性结果。
上下文信号。 实体周围的文本会调整评分,「我的社会安全号是 571-44-9283」会提高评分,「产品代码 571-44-9283」会降低评分。
集成规则。 系统以设定权重组合正则、模型和上下文信号,最终数字反映所有证据的综合判断。
这个数字驱动工作流中的每一项阈值决策。关于「是/否」工具的误报问题,请参阅:PII 工具的误报代价。
保险理赔:真实案例
保险文件混合了明确的 PII(投保人姓名、地址、社会安全号)和依赖上下文的数据:目击证人姓名、公司名称、理赔专员签名。
「是/否」工具要么脱敏所有姓名(对公司名称而言是错误的),要么遗漏目击证人姓名(带来风险)。评分工具对每个项目独立处理:
- 标注「投保人社会安全号」的社会安全号,置信度 96%——自动脱敏
- 标注 PERSON 的投保人姓名,置信度 91%——自动脱敏
- 标注 ORG 的承包商公司,置信度 78%——人工审核——审核员拒绝脱敏
- 标注 PERSON 的目击证人姓名,置信度 82%——人工审核——审核员接受
- 标注 PERSON 的理赔专员姓名,置信度 71%——人工审核——审核员接受(第三方数据)
每个决定都有数值依据,审计追踪完整无缺。
构建合规记录
对于 GDPR 第 5 条第 1 款 (f) 项和 HIPAA 安全规则,评分工具会自动生成合规记录。
实体级别审计记录:捕获实体类型、评分、决定类型(自动或人工)、审核员 ID 和时间戳,可导出为 CSV 供数据保护机构查询使用。
阈值记录:记录当前设置和每次变更,每次变更包含变更人、变更时间和变更原因,证明这是一项有意为之、经过管理的政策。
统计报告:涵盖按实体类型的检测率、第二级审核率和否决率,可回应数据保护机构「向我们展示你们的控制措施」的要求。
关于 HIPAA 审计追踪指南,请参阅:可解释脱敏:HIPAA 审计。
「是/否」标记是猜测,评分才是证据。