By · Last updated 2026-06-03

返回博客法律科技

法律 PII:特权标识符检测

案件参考号、律师执照号、法院案卷号和客户事项 ID 是具有法律敏感性的标识符,标准 PII 工具往往无法识别。

June 3, 20267 分钟阅读
attorney-client privilegelegal document reviewcase numberslaw firm privacylegal tech

AI 时代的律师-委托人特权:匿名化工具必须检测的法律 PII

标准 PII 工具能识别姓名、电子邮件和社会安全号,却会遗漏案件参考 ID、律师执照号和客户事项标签。这些标识符承载着严峻的特权风险,而通用工具对此视而不见。

律所每天向 AI 工具发送文件,这些文件包含标准工具无法检测的特权敏感标记。

当律所将文件路由至 AI 助手时,文件中往往同时包含法律标识符和标准 PII:

  • 客户事项标签: 关联完整的事项档案并指向客户姓名
  • 案件参考 ID: 法院分配的代码,链接至含有私密细节的公开记录
  • 律师执照号: 在各州公开目录中可检索的律师 ID
  • 法院案卷代码: 连接至含有完整诉讼历史的公开归档系统
  • 司法分配代码: 在敏感情形下识别主审法官

上述任何一项发送给外部 AI 供应商,都可能产生潜在的特权问题。

为何这些 ID 需要自定义检测

法院案卷格式遵循地区级规范,单一格式无法覆盖所有联邦和州法院。

联邦民事案件采用两位年份 + 「cv」+ 案件编号的格式,刑事案件将「cr」置于相同位置,各州法院则因地区而异,没有统一标准。

律师执照号因州而异:加利福尼亚州采用数字格式,纽约州采用注册格式,德克萨斯州有自己的律师 ID 格式,全国没有统一规范。

客户事项标签属于律所自定义格式:每家律所都有自己的命名规则,有年份-客户-事项组合,有业务组代码,也有顺序 ID。

标准 PII 工具在没有专项配置的情况下,无从知晓上述任何格式。

这一漏洞真实存在。文件工具收到完整的事项上下文,案卷代码链接至公开记录,客户标签清晰可见,工具报告 PII 已移除,姓名和电子邮件确实被移除了,但特权敏感 ID 并没有。

法律科技初创公司案例

一家法律科技初创公司为律所构建文件工具,产品扫描调查文件、标记相关条款并识别潜在特权内容。企业客户要求在处理前同步脱敏客户事项标签和标准 PII。

合规阻碍:AI 工具处理包含客户事项标签的文件数据,结合公开法院记录,这些标签可能使事项被识别,企业法律运营团队认定此风险不可接受。

引入自定义实体检测前:

  • 交易审查发现合规漏洞
  • 自定义 NLP 模型排队等待 3 个月以上
  • 企业合同搁置

接入自定义实体 API 后:

  • 合规官在入职时定义事项标签格式
  • 对照样本文件测试模式:2 天
  • 将自定义实体加入处理管道:1 天
  • 企业合同顺利推进

差距是 3 天与 3 个月以上。工作内容是模式配置和 API 集成,无需训练 NLP 模型。

各类格式说明

联邦法院案卷号:

联邦民事案件格式:两位年份 + 「cv」+ 4 至 6 位案件编号,示例:24-cv-12345。刑事案件将「cr」置于相同位置,破产案件用「bk」,上诉案件采用两位年份加 4 至 5 位编号(因巡回法院而异)。

州法院格式(示例):

加利福尼亚高等法院采用六位前缀制度,纽约采用含年份和序列号的索引格式,德克萨斯采用含年份、序列号和法院代码的案由格式。

客户事项标签(典型律所格式):

大多数律所采用以下三种常见模式之一:

  • 两位年份 + 客户 ID + 事项序列号(如 24-ACME-001)
  • 业务组缩写 + 年份 + 四位序列号(如 LIT240042)
  • 客户前缀 + 六位 ID(如 SMITHCO-000123)

美国律师执照 ID:

大多数州使用 4 至 8 位数字,有时带有州级前缀。联邦地区法院准入 ID 因地区而异,没有统一格式。

特权意识处理管道

对于文件审查 AI,分层管道能覆盖全面需求。

第一层 — 标准 PII 检测

姓名、电子邮件、电话号码、地址、社会安全号。准确率高,成熟工具可妥善处理。

第二层 — 自定义代码检测

事项代码、案卷 ID、律师 ID。入职时设置律所专属模式,填补标准工具无法覆盖的盲区。

第三层 — 特权审查(人工)

自动检测完成后,由律师审查被标记的标识符:律师-委托人特权抬头、工作成果标注、保密标记。这一层的人工审查不可省略。

第四层 — 上下文例外审查

无特权风险的公开记录案卷与存在风险的客户事项标签需要区别对待,这需要律师的专业判断,无法自动化。

第一、二层处理高量工作,第三、四层确保特权决策由律师把关。关于 AI 工具使用导致特权丧失的情形,参阅律师-委托人特权与 AI

开发者配置指南

入职配置

在企业入职时收集客户事项标签格式,每家律所格式不同,以律所专属自定义实体形式存储,应用于该账户的所有处理流程。

默认预设

预置预设覆盖常见场景,无需额外配置:

  • 「联邦法院文件」— 涵盖民事、刑事和破产的联邦案卷模式
  • 「州法院文件(加利福尼亚/纽约/德克萨斯)」— 三大主要司法管辖区的州级格式
  • 「内部运营」— 事项标签加标准 PII
  • 「外部律师门户」— 账单参考、事项标签加标准 PII

审计文档

处理记录应显示每次检测过程中均包含了自定义代码,这支持对分析方法的工作成果保护。

关于诉讼中脱敏成本如何规模化,参阅 e-discovery PII 自动化与法律审查成本降低

结语

特权敏感 ID 与标准 PII 同等危险,往往风险更高。遗漏案卷代码和事项标签的工具,在文件工作流中留下了真实的合规漏洞。

解决方案不是 NLP 模型,而是模式配置。对于构建律所工具的开发者而言,这意味着 3 天与 3 个月之间的差距;对于律所而言,这是可防御的 AI 辅助审查与特权丧失风险之间的分水岭。

参考资料

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.