返回博客法律科技

人工智能编辑失败导致的电子发现制裁:过度编辑如何成为法律责任

在Athletics Investment Group诉Schnitzer Steel(2024)一案中,不当编辑引发了发现制裁。由于人工智能工具在法律文件上的精确率仅为22.7%,风险是系统性的。

March 12, 202610 分钟阅读
e-discovery sanctionsredaction liabilityAI redaction precisiondocument reviewlegal technology

不当编辑的双重责任

法律团队面临两种不同的编辑失败模式,而这两种模式都会产生责任。

编辑不足暴露了特权内容、机密商业信息或应当保留的个人数据。生产方披露了其有权——在某些情况下还有义务——保护的材料。

过度编辑则隐瞒了对方律师有权获得的响应信息。生产方阻碍了发现过程,可能隐藏了非法特权主张背后的证据。法院将过度编辑视为发现违规,可能会受到制裁。

优先考虑召回而非精确的人工智能辅助编辑工具——最大限度地标记潜在敏感内容——系统性地产生第二种失败模式。当人工智能编辑引擎将文档内容的80%编辑掉,以确保不遗漏任何特权内容时,所产生的结果在功能上是无用的,并且可能会受到制裁。

Athletics Investment Group诉Schnitzer Steel(2024)

2024年Athletics Investment Group诉Schnitzer Steel一案展示了法院对电子发现中不当编辑的司法回应。

该案涉及一项商业争议,其中一方的文件生产包含了对方律师质疑为不当的编辑。法院审查了被编辑的材料,发现这些编辑超出了特权法或保密原则所允许的范围。

后果:发现制裁。法院对生产方的不当编辑处以罚款——这是根据联邦民事诉讼规则第37条对发现违规行为可用的救济。生产方承担了使用不充分编辑过程的责任。

该案的重要性不在于过度编辑制裁是新颖的——法院多年来一直对此进行裁决——而在于它发生在一个人工智能辅助审查工具已成为常态的诉讼环境中。该案提出的问题是,法律团队在依赖这些工具进行生产之前,是否评估了其人工智能编辑工具的精确特性。

22.7%的精确率问题

由微软开发的开源PII检测引擎Presidio在独立基准测试中,在法律文件上实现了22.7%的精确率

精确率衡量工具的正面识别有多正确。22.7%的精确率意味着大约每100个被工具标记为敏感的项目中,有77个实际上并不符合被标记的敏感性阈值。

对于电子发现应用,这直接影响操作。使用精确率为22.7%的工具处理的10,000份文档的生产集将包含数千个没有合法特权或保密依据的编辑。依赖该输出的生产方面临与Athletics Investment Group中的当事方相同的风险:一份对方律师将质疑的生产,法院将审查被编辑的内容,如果这些编辑无法被证明合理,则可能会受到制裁。

22.7%的数字反映了Presidio在法律内容上的开箱配置。它并不代表所有人工智能辅助编辑工具——但它确实代表了在法律技术集成中最常用的开源引擎的基线性能。

精确率问题是结构性的:基于自然语言处理的实体识别系统在一般文本语料库上训练的表现与法律语言不同,法律语言使用的术语、缩写、文档格式惯例和引用结构与训练数据不同。对医疗记录或财务报表具有可接受精确率的工具在证词记录、信函和合同附件上可能表现得更差。

人工智能聊天机器人内容分析揭示的内容

法律实践中人工智能工具采用的背景由使用数据建立:根据对企业人工智能工具使用模式的独立分析,27.4%的人工智能聊天机器人内容是敏感的

这个数字描述了员工在工作任务中使用人工智能工具时提交的内容——不是他们故意分享的数据,而是意外包含的敏感内容。对于使用人工智能工具起草信函、总结证词、分析合同或研究案例法的法律专业人士而言,敏感内容作为正常工作的副产品进入人工智能平台。

27.4%的数字表明,法律环境中与人工智能工具的近三分之一的互动涉及敏感内容——客户信息、特权通信、机密案件策略或对方数据。除非技术控制首先拦截,否则这些内容以可用形式到达人工智能提供商的基础设施。

对于评估其人工智能安全态势的律师事务所而言,27.4%并不是一个边际风险。这是基线假设:在法律环境中,近三分之一的人工智能工具使用将涉及需要保护的内容。

级联责任链

过度编辑和人工智能工具数据暴露为法律团队创造了不同但相关的责任链。

过度编辑责任链:人工智能工具最大限度地标记文档 → 律师在未逐一检查每个编辑的情况下审查输出 → 提交包含不当编辑的生产 → 对方律师质疑 → 法院审查 → 制裁。

人工智能暴露责任链:律师使用人工智能工具协助案件工作 → 人工智能工具接收特权客户通信、机密策略或敏感案件数据 → 人工智能供应商基础设施被攻击 → 客户数据被曝光 → 律师-客户特权可能受到影响 → 职业失误风险。

这两条链条都从同一点开始:法律团队在没有理解这些工具的技术特性或实施适合法律工作的控制的情况下部署人工智能工具。

优先精确的法律生产编辑

编辑的司法标准并不是优化召回的。法院在评估被质疑的编辑时,会询问每个具体编辑是否得到了特权、保密原则或适用保护令的支持——而不是生产方的工具是否尽可能多地标记以确保安全。

无法证明合理的编辑是发现违规,无论是由人工审查员还是人工智能工具生成。法院的审查是特定于文档的,而不是系统级别的。

对于法律团队而言,操作含义是编辑工具必须根据精确性进行评估——被标记项目中合法特权或保密的百分比——而不仅仅是召回。一个实现90%召回率但精确率为22.7%的工具可能会捕获更多敏感内容,但对于77.3%的假阳性会施加手动审查负担,并在未进行审查时产生系统性过度编辑风险。

法律环境要求在文档级别上实现精确性。生产中的每个编辑都代表了向法院隐含的主张,即被编辑的内容是合法保留的。Athletics Investment Group之后的标准很明确:这一主张需要准确。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。