可重复的隐私保护:为何 ML 团队需要预设而非文档
DPO 已批准匿名化方案:覆盖姓名、电子邮件、电话号码和出生日期四项内容,处理方法为替换,方案共四页,存放于合规 Wiki。
12 名数据科学家在启动会议上阅读了文档,每人自行配置工具。有人额外添加了国家 ID,有人加入了 IP 地址,有人改为脱敏方式。三个月后,数据集之间不再一致。
CNIL(法国国家信息与自由委员会)于 2024 年检查了多家 AI 公司,焦点在于:在模型训练数据集中不当使用个人信息。他们不只询问是否进行了匿名化,还询问匿名化执行是否一致。
文档是必要的,但远远不够。解决方案在于预设。
为何 ML 数据集需要专属配置
构建训练数据集有其独特需求,与通用文件匿名化并不相同。
替换,而非脱敏。 用**[REDACTED]**替换姓名训练出的模型,会将这个标记视为姓名位置的标志,从而损害模型效果。替换操作将「张三」换成「李四」,模型看到的是真实姓名格式,而非掩码标记。
所有记录统一处理。 若数据集中 70% 的姓名被替换,30% 变成**[REDACTED]**,则发出混合信号。每条记录必须经过相同的处理步骤。
统一的实体清单。 若数据集含有医疗信息,部分记录删除了姓名却保留了出生日期,便会产生遗漏。全部 12 名数据科学家必须移除相同的实体类型。
避免过度删除。 移除时间戳类的日期——而非出生日期——会在没有合规收益的情况下降低数据集质量。经审批的预设精确定义了哪些内容需要移除。
可重复的输出。 若数据集需要重新处理——例如发现遗漏了某种实体类型——预设每次都能给出相同的结果,而临时配置无法保证这一点。
12 名数据科学家的困境
欧洲一家金融科技 ML 团队使用客户日志作为训练数据,DPO 已批准其目的——欺诈检测——并设定了一条规则:模型训练前,所有客户姓名、电子邮件、电话号码和支付 ID 必须被替换。
没有预设时:
- 第 1 人移除了姓名、电子邮件和电话号码,但遗漏了支付 ID
- 第 2 人包含了支付 ID,但采用脱敏而非替换方式
- 第 3 人严格按照方案文档执行
- 第 4 至 12 人各有差异
合并后的数据集部分不合规,部分过度处理,DPO 无法为其背书。
使用 DPO 审批预设时:
- DPO 创建「ML 开发——欺诈检测」预设,明确实体类型和替换方法
- 预设下发给全部 12 人,并设定唯一规则:所有数据集工作使用此预设
- 未经 DPO 审批,任何人不得修改预设
每个人现在产出相同的结果,合并后的数据集一致,年度 AI 审计零发现。此前一年因数据集工作不一致产生了三项发现。
GDPR 与欧盟 AI 法案
2026 年更新
欧盟 AI 法案已于 2024 年 8 月正式生效,为使用个人信息进行模型训练的 AI 系统添加了新规范。高风险 AI 系统必须记录其数据集,包括所应用的匿名化措施。
GDPR 第 5 条第 1 款第 b 项——目的限制原则——禁止在没有明确合法依据的情况下使用个人信息。CNIL 2024 年的案件聚焦于这一缺口:为某一服务收集的数据被用于模型训练,既无有效依据,也未经过匿名化处理。
预设有助于同时满足两套规则的要求:
- 预设名称和配置:已记录的处理方法
- 处理日志:方法已执行的证明
- DPO 审批:配置的书面签核
这形成了两部法律均要求的审计追踪。关于第 10 条义务的详细内容,参阅欧盟 AI 法案训练数据指南。
NLP 数据集的预设配置
大多数 NLP 数据集应包含的实体类型:
- PERSON——用相似姓名替换
- EMAIL_ADDRESS——用合成地址替换
- PHONE_NUMBER——用合成号码替换
- CREDIT_CARD / IBAN——替换或脱敏
- LOCATION——位置信息重要时用相似地点替换,否则脱敏
- DATE_OF_BIRTH——脱敏,通常需要年龄分组处理
通常无需包含的实体类型:
- 一般日期——时间戳有助于时序模型
- 机构名称——有助于命名实体识别模型
- URL——有助于链接和引用模型
ML 负责人和 DPO 共同在经审批的预设中确定上述规则,团队成员负责应用,无需做出配置决策。
预设作为组织记忆
预设使用前: 正确的实体配置保存在三名数据科学家的头脑中——他们曾参与合规审查。两人在第三季度离职,知识随之流失。
预设使用后: 配置存储在「ML 开发——客户记录 v2.1」中,版本日志记录了创建时间、审批人和相对 v2.0 的变更内容。新团队成员使用预设,即可获得其中内含的所有积累知识。
v2.1 在审查发现 IBAN 检测缺失后将其添加,v2.0 于 2025 年 2 月审批,日志完整无缺。
关于处理日志和 DPO 审查流程的详细内容,参阅 GDPR ML 训练数据匿名化指南。
预设与 CNIL 监管模式
CNIL 2024 年的 AI 案件确立了清晰的监管逻辑:他们不仅询问删除了什么,还询问如何治理。一个带有 DPO 审批记录和处理日志的共享预设,能够直接回答这一问题。
临时配置无法给出这样的答案。遵循 CNIL 逻辑的其他欧盟 DPA 案件中存在同样的漏洞。关于 CNIL AI 监管方式的深入内容,参阅 CNIL 法国 GDPR AI 合规指南。
结语
文档告诉团队成员该做什么,预设让他们每次都能以相同方式轻松执行,且具有约束力。
对于 ML 训练数据集而言,一致性既是法律需求,也是技术需求,预设能同时满足两者。
关注 AI 实践的数据保护机构需要统一匿名化的证据,一个以相同方式应用于所有数据集工作的预设,是你能提供的最有力证明。