返回博客技术

假阳性问题:为什么纯机器学习编辑每小时成本为800美元以及如何解决它

2024年的基准研究发现,Presidio在4,434个样本中生成了13,536个假阳性姓名检测——将代词、船舶名称和国家标记为人名。在每小时200至800美元的律师费用下,这一精度问题代价高昂。

March 23, 20268 分钟阅读
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

生产中的22.7%精度问题

2024年的一项基准研究对Microsoft Presidio进行了评估——这是一个用于法律技术、医疗保健和企业数据保护应用的开源PII检测引擎——发现其在商业文档上下文中的人名检测精度率为22.7%

精度衡量正面识别的准确性:工具标记为“人名”的项目中,实际为人名的比例是多少。在22.7%的情况下,大约每100个标记为人名的项目中有77个是假阳性

基准研究记录了在4,434个文档样本中13,536个假阳性姓名检测。假阳性包括:

  • 被标记为人名的代词(“我”出现在句首)
  • 被标记为人名的船舶名称(“ASL Scorpio”)
  • 被标记为人名的组织名称(“德勤”)
  • 被标记为人名的国家名称(“阿根廷”,“新加坡”)

这些并不是边缘案例。当一个在混合语料库上训练的通用NLP模型应用于特定领域的文档类型时,这些系统性模式就会出现,在这些文档中,专有名词出现在模型未经过训练以消歧义的上下文中。

大规模假阳性的成本结构

在法律和医疗环境中,假阳性并不是免费的。每个被标记的项目都需要处理:要么进行人工审核以确认或拒绝标记,要么进行自动处理,导致假阳性未被纠正。

选项1:对每个被标记项目进行人工审核。 在每小时200至800美元的律师或专家费用下,从22.7%精度系统中审核假阳性在规模上是经济上不可行的。对于一个10,000文档的生产,每个文档有100个被标记项目,22.7%的精度大约需要77,300个项目进行人工审核。每个项目5分钟,每小时300美元,这需要6,442小时的审核时间——大约190万美元。

选项2:跳过人工审核并接受自动处理。 结果是一个生产,其中77%的“编辑”项目实际上并不敏感——造成过度编辑责任(无理由隐瞒可发现的内容),破坏文档的实用性,并可能触发制裁。

选项3:分数阈值。 Presidio允许配置score_threshold,通过仅标记超过置信阈值的项目来减少假阳性。2024年对DICOM医学影像文档的基准研究发现,即使使用score_threshold=0.7——一个相对激进的精度过滤器——39个DICOM图像中仍有38个存在假阳性实体。分数阈值减少但并不消除纯机器学习检测的假阳性问题。

为什么纯机器学习无法处理特定领域的文档

Presidio的假阳性模式反映了通用NLP模型在特定领域上下文中的基本局限性:

法律文档包含专门的专有名词——案件名称、法规名称、展品标识——这些名称与人名在表面模式上有相似之处。一个在通用文本上训练的模型学习到大写的专有名词通常是人名。法律文档包含数百个不是人名的大写专有名词。

医疗文档包含药物名称、设备名称和程序代码,其中包括类似名称缩写的字母序列。临床文本还包含缩写(“Pt.”代表病人,“Dr.”代表医生),这些缩写与名称检测的交互不可预测。

金融文档包含产品名称、实体名称和标识符代码,这些名称与个人标识符共享模式。

特定领域的调优可以解决这些模式,但需要在微调数据集上进行大量投资,并随着文档类型的演变进行持续维护。

混合架构解决方案

假阳性问题可以通过混合检测结构性地解决,混合检测将结构化数据(正则表达式提供100%精度)与上下文数据(机器学习提供带有校准置信度的模式识别)分开。

结构标识符的正则表达式: 社会安全号码、电话号码、电子邮件地址、信用卡号码、国家身份证格式、银行账户号码。这些格式是确定性的——一个字符串要么匹配模式并通过校验和验证,要么不匹配。合法实现的假阳性为零。

上下文实体的NLP: 人名、组织名称、非结构化文本中的位置。NLP模型为缺乏结构模式的实体提供召回。置信评分和上下文词要求减少假阳性。

每种实体类型的阈值配置: 为人名设置90%的置信阈值,同时对社会安全号码使用正则表达式确定性(有效为100%),允许根据特定领域的假阳性容忍度进行校准。无法容忍过度编辑风险的法律团队设置更高的阈值;最大化去标识化召回的临床研究团队设置较低的阈值。

结果:假阳性率显著低于Presidio默认值,同时保持纯模式匹配无法实现的召回。对于评估自动编辑工具的法律和医疗保健组织而言,精度与召回的权衡是可管理的——但前提是使用的工具将其作为可配置参数而不是固定系统行为进行暴露。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。