返回博客技术

虚假积极税:为什么您的PII工具的精确度问题成本超出您的想象

Presidio GitHub问题#1071记录了系统性的虚假积极。2024年的一项研究发现混合语言企业数据集的精确度为22.7%。每个虚假积极都是手动审核的负担——在规模上,这是一个无形的合规税,侵蚀了自动化的投资回报率。

April 3, 20268 分钟阅读
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

无形的合规税

PII检测工具通常根据召回率进行评估——该工具捕获了多少实际的PII?但精确度——该工具的检测中有多少比例是真正的PII——决定了使用该工具的运营成本。

一个具有95%召回率和22.7%精确度的系统捕获了95%的真实PII,但对于每个检测到的真实PII实体,它会标记3.4个虚假积极。在包含10,000个真实PII实体的数据集中,该系统生成10,000 / 0.227 ≈ 44,000个总检测,其中34,000个是虚假积极,需要手动审核或导致过度编辑。

这就是“虚假积极税”:对任何试图在生产规模上使用高召回率、低精确度PII检测系统的组织施加的运营开销。虚假积极税有直接成本——手动审核者的时间——和间接成本:过度编辑的文件掩盖了相关信息,减缓了工作流程,并降低了对自动化系统的信任。

Presidio问题#1071记录了什么

微软Presidio GitHub讨论#1071(2024)记录了一种特定且系统性的虚假积极模式。具有校验和验证的TFN(税号)和PCI识别器对偶然通过校验和算法的非PII数字生成1.0的置信度分数——最大置信度。

设计问题:上下文单词检查(验证“税号”或“TFN”等词是否出现在检测到的实体附近)是在校验和步骤之后应用的,而不是之前。通过校验和的数字无论上下文如何都获得1.0的分数。在包含数值数据的文档中——财务电子表格、科学数据集、日志文件——这会产生大量无法仅通过分数阈值过滤的虚假积极。

来自Presidio社区的另一个模式(GitHub问题#999):德语单词分割为名称和位置实体创建了虚假积极。德语复合词如“Bundesbehörde”(联邦机构)或常见德语术语可能被错误分割并检测为个人名称。

22.7%精确度问题

Alvaro等人(2024)评估了Presidio默认设置在混合语言企业数据集上的表现,发现22.7%精确度——这意味着在真实企业文档中,少于四分之一的Presidio检测对应于实际的PII。这个数字与从业者的实地经验一致:为召回率调优的Presidio在生产中产生了不可用的噪声。

一项2024年研究检查DICOM医学成像元数据发现,即使使用score_threshold=0.739个DICOM图像中的38个仍然有虚假积极实体。消除一种文档类型的虚假积极的阈值会为另一种文档类型产生虚假消极。

精确度问题并不是Presidio独有的——它反映了构建一个在不同文档类型、语言和数据格式中都能实现高召回率和高精确度的PII检测器的固有困难。挑战在于,任何固定的阈值都代表了一种权衡:高阈值减少虚假积极但增加虚假消极;低阈值增加召回率但膨胀虚假积极。

上下文感知解决方案

阈值调优的替代方案是上下文感知的置信度评分。上下文感知评分在上下文单词出现在匹配附近时提高置信度,而在缺少上下文时抑制虚假积极。

对于TFN检测:当“税号”、“TFN”或“澳大利亚税”出现在可配置窗口内时,分数会被提升。通过TFN校验和而没有附近上下文单词的数字会获得低于审核阈值的置信度分数。

对于跨语言虚假积极:特定于某些语言的实体类型(德语财税ID、法语NIR、澳大利亚TFN)可以限制在检测为该语言的文档中。仅应用于英语和澳大利亚英语文档的TFN检测器消除了在德语文档上运行相同检测器时发生的系统性虚假积极。

混合检测的第三层——基于变换器的上下文模型——增加了另一层:模型评估完整的周围上下文,以区分真正的个人名称(“约翰·史密斯,患者ID 12345”)与虚假积极(恰好匹配名称模式的产品标识符)。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。