2026年更新
一种修复,两种新风险
许多机构现在通过在文本到达AI提供商之前剥离姓名和ID来阻止AI泄露。单向哈希、硬性遮盖或完全删除——这些看起来都很安全:AI获得干净文本,敏感细节留在内部。
这个逻辑在安全方面是成立的。Cyberhaven 2025年第四季度研究发现,发送给ChatGPT的内容中34.8%包含敏感数据。Ponemon 2024年报告将AI泄露的平均成本定为210万美元。风险是真实的,成本是高昂的。
但完全删除以一种风险换取另一种风险:证据灭失。
对于受诉讼或审计约束的机构,销毁恢复原始记录的能力可能根据联邦和州法规构成证据灭失。
AI数据共享的规模
eSecurity Planet和Cyberhaven的研究发现,77%的员工每周与AI工具共享敏感数据,涵盖法律、医疗、金融和技术行业。
共享内容通常包括:
- 客户信函和案件笔记
- 合同草稿和交易条款
- 内部计划和业务记录
- 财务模型和预测
- 法律备忘录和案件笔记
- 患者记录和临床笔记
- 人力资源文件和员工消息
当完全删除作为AI管控手段时,通过它处理的每份文件都可能丧失法律价值。如果这些文件在诉讼中出现——对于受监管领域的机构,在任何多年期间都极有可能——机构可能已经失去了证据。
GDPR:可逆性是必要条件
GDPR第4(5)条将假名化定义为处理个人记录的方式,使其"在不使用额外信息的情况下无法归因于特定数据主体,前提是此类额外信息单独存放"。
关键点:使重新链接成为可能的额外密钥必须保留。可以通过存储密钥重新链接的记录在GDPR下视为假名化。
根本无法重新链接的记录不是假名化,而是匿名化。差距很重要:令牌掩码记录保留了一些GDPR义务,但可以为法律用途还原;完全删除的记录可能超出GDPR范围,但根本无法还原。
联邦规则:证据灭失测试
根据联邦民事诉讼规则,当事方必须保存可能与预期诉讼相关的记录。这一义务在诉讼合理可预见时开始,而非在诉讼提起时。
第37(e)条允许法院对未能保存存储电子信息的当事方施加处罚,包括:
- 不利推论指令
- 证据排除
- 严重情形下的案件终结制裁
以下是实际情形:机构使用AI工作流,在正常业务过程中完全删除敏感内容。这些记录后来与诉讼相关,机构已对其进行了处理,原始文本无法恢复。如果这发生在保全义务生效之后,证据灭失风险随之而来。
可逆与不可逆:关键区别
单向:无法恢复 SHA-256对名字的哈希产生固定哈希值,无法从中推导出名字。硬性遮盖移除文本,原始内容消失。
可逆:可以恢复 保留密钥的令牌替换和AES-256-GCM加密都以可以撤销的方式转换记录——被令牌替换的名字可以通过查找表还原,AES-256-GCM内容可以用正确的密钥解密。原始文本保持可达。
对于AI保护,两种方法效果相同。对于法律义务,只有可逆令牌掩码有效。
双重合规设计
同时满足AI安全和法律披露义务的设计使用可逆AES-256-GCM令牌掩码:
- 记录在到达任何AI工具之前经过处理
- 敏感项目——姓名、ID、PHI、特权内容——被替换为结构化令牌
- 令牌映射表存储在单独的存储库中,访问控制与数据类型匹配
- AI处理在令牌副本上运行,AI从不接触真实记录
- 结果通过令牌映射表还原供正常业务使用
- 当发现义务生效时,令牌映射表置于法律保全之下
在这种设计下,没有原始内容会丢失,AI提供商从不以可用形式看到它,令牌映射表在法律需要时保持恢复可能性,证据灭失风险消除——没有记录被销毁,只是以可以撤销的方式进行了掩码处理。