By · Last updated 2026-06-05

返回博客技术

二值 PII 检测为何无法满足合规要求

「已检测 / 未检测」的判断对于需要人工裁量的合规场景远远不够。置信度评分将 PII 匿名化从二元猜测转变为可审计的合规控制。

June 5, 20268 分钟阅读
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

二值 PII 检测为何无法满足合规要求

2026 年更新版

每一个 PII 工具都面临同一个根本难题:同一字符串在不同场景下可能是个人数据,也可能不是。

客户档案中的「张伟」是数据主体;讲述某位历史人物的文章里同名同姓的「张伟」却不是。医疗记录中的九位数字是 HIPAA 编码,产品代码中相同的九位数字却不是。

「是/否」标记无法处理这种情况,它只能逼你做出两种糟糕选择:脱敏所有可能是 PII 的字符串,或者只脱敏确定无疑的匹配。这两种做法在法律层面都站不住脚,因为每一个决定都必须清晰且有文档支撑。

每个实体 0 到 100 的置信度分数提供了第三条路:驱动分级规则、人工审核队列和完整的审计记录。

「是/否」标记的局限

上下文决定数据的含义,两份文件可以包含相同的字符串,在一份文件中它是个人数据,在另一份中却不是。标记无法区分这种差异,而数字可以。

只有标记的情况下,你的两个选项都是错的:过度脱敏损害文件价值,脱敏不足带来法律风险,两者都无法在法庭上站稳脚跟。

法律取证:为何必须使用评分

法律取证程序的规则使评分检测成为必要。

过度脱敏问题。 脱敏律师姓名或法庭引文会损害证据完整性,法庭已对过度脱敏的律师进行制裁,适用的判例法与处理脱敏不足的相同。

脱敏不足问题。 遗漏真实 PII 会带来风险,包括客户隐私泄露、律师纪律申诉,在某些地区甚至可能面临刑事指控。

解释每项决定的必要性。 当法庭追问某项内容为何被脱敏时,律师必须给出解释。「工具标记了它」远远不够。「工具以 94% 的置信度将此项识别为社会安全号,我们的规则对 85% 以上的内容自动脱敏。」这才足够。

「是/否」标记给不出这样的答案,而带有固定规则的评分工具可以。另请参阅:在法庭上为脱敏辩护:AI 评分的应用

三级审核体系

最有效的配置基于实体评分建立三个层级。

第一级 — 自动处理(85% 以上):

  • 符合高确定性格式的项目(社会安全号、IBAN、病历号)
  • 无需人工步骤,自动脱敏
  • 日志记录实体类型、评分、处理方式和时间戳
  • 示例:「571-44-9283」以 97% 的置信度识别为社会安全号——自动脱敏

第二级 — 人工审核(50% 至 85%):

  • 可能是 PII 但需要人工判断的项目
  • 发送给审核员进行接受、拒绝或重新分类
  • 日志记录实体类型、评分、审核员 ID、决定和时间戳
  • 示例:技术文档中「张伟」以 67% 的置信度识别——审核员确认为姓名——执行脱敏

第三级 — 仅作提示(50% 以下):

  • 低确定性项目,显示为参考提示
  • 不自动脱敏,审核员可操作或跳过
  • 日志记录实体类型、评分和审核员选择
  • 示例:产品文档中「某某公司」以 42% 的置信度识别——审核员发现这是企业名称——不执行脱敏

只有第二级需要人工介入,三个层级均生成审计记录。

评分如何生成

PII 工具组合多种信号生成每个实体的单一分数。

正则表达式模式。 精确的社会安全号格式匹配获得较高基础分,部分匹配获得较低分。

模型输出。 命名实体模型为每个类别分配概率,PERSON 类 0.93 的分数产生高确定性结果。

上下文信号。 实体周围的文本会调整评分,「我的社会安全号是 571-44-9283」会提高评分,「产品代码 571-44-9283」会降低评分。

集成规则。 系统以设定权重组合正则、模型和上下文信号,最终数字反映所有证据的综合判断。

这个数字驱动工作流中的每一项阈值决策。关于「是/否」工具的误报问题,请参阅:PII 工具的误报代价

保险理赔:真实案例

保险文件混合了明确的 PII(投保人姓名、地址、社会安全号)和依赖上下文的数据:目击证人姓名、公司名称、理赔专员签名。

「是/否」工具要么脱敏所有姓名(对公司名称而言是错误的),要么遗漏目击证人姓名(带来风险)。评分工具对每个项目独立处理:

  • 标注「投保人社会安全号」的社会安全号,置信度 96%——自动脱敏
  • 标注 PERSON 的投保人姓名,置信度 91%——自动脱敏
  • 标注 ORG 的承包商公司,置信度 78%——人工审核——审核员拒绝脱敏
  • 标注 PERSON 的目击证人姓名,置信度 82%——人工审核——审核员接受
  • 标注 PERSON 的理赔专员姓名,置信度 71%——人工审核——审核员接受(第三方数据)

每个决定都有数值依据,审计追踪完整无缺。

构建合规记录

对于 GDPR 第 5 条第 1 款 (f) 项和 HIPAA 安全规则,评分工具会自动生成合规记录。

实体级别审计记录:捕获实体类型、评分、决定类型(自动或人工)、审核员 ID 和时间戳,可导出为 CSV 供数据保护机构查询使用。

阈值记录:记录当前设置和每次变更,每次变更包含变更人、变更时间和变更原因,证明这是一项有意为之、经过管理的政策。

统计报告:涵盖按实体类型的检测率、第二级审核率和否决率,可回应数据保护机构「向我们展示你们的控制措施」的要求。

关于 HIPAA 审计追踪指南,请参阅:可解释脱敏:HIPAA 审计

「是/否」标记是猜测,评分才是证据。

参考资料

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.