可重复的隐私保护：为何 ML 团队需要预设而非文档

DPO 已批准匿名化方案：覆盖姓名、电子邮件、电话号码和出生日期四项内容，处理方法为替换，方案共四页，存放于合规 Wiki。

12 名数据科学家在启动会议上阅读了文档，每人自行配置工具。有人额外添加了国家 ID，有人加入了 IP 地址，有人改为脱敏方式。三个月后，数据集之间不再一致。

CNIL（法国国家信息与自由委员会）于 2024 年检查了多家 AI 公司，焦点在于：在模型训练数据集中不当使用个人信息。他们不只询问是否进行了匿名化，还询问匿名化执行是否一致。

文档是必要的，但远远不够。解决方案在于预设。

为何 ML 数据集需要专属配置

构建训练数据集有其独特需求，与通用文件匿名化并不相同。

替换，而非脱敏。 用**[REDACTED]**替换姓名训练出的模型，会将这个标记视为姓名位置的标志，从而损害模型效果。替换操作将「张三」换成「李四」，模型看到的是真实姓名格式，而非掩码标记。

所有记录统一处理。 若数据集中 70% 的姓名被替换，30% 变成**[REDACTED]**，则发出混合信号。每条记录必须经过相同的处理步骤。

统一的实体清单。 若数据集含有医疗信息，部分记录删除了姓名却保留了出生日期，便会产生遗漏。全部 12 名数据科学家必须移除相同的实体类型。

避免过度删除。 移除时间戳类的日期——而非出生日期——会在没有合规收益的情况下降低数据集质量。经审批的预设精确定义了哪些内容需要移除。

可重复的输出。 若数据集需要重新处理——例如发现遗漏了某种实体类型——预设每次都能给出相同的结果，而临时配置无法保证这一点。

12 名数据科学家的困境

欧洲一家金融科技 ML 团队使用客户日志作为训练数据，DPO 已批准其目的——欺诈检测——并设定了一条规则：模型训练前，所有客户姓名、电子邮件、电话号码和支付 ID 必须被替换。

没有预设时：

第 1 人移除了姓名、电子邮件和电话号码，但遗漏了支付 ID
第 2 人包含了支付 ID，但采用脱敏而非替换方式
第 3 人严格按照方案文档执行
第 4 至 12 人各有差异

合并后的数据集部分不合规，部分过度处理，DPO 无法为其背书。

使用 DPO 审批预设时：

DPO 创建「ML 开发——欺诈检测」预设，明确实体类型和替换方法
预设下发给全部 12 人，并设定唯一规则：所有数据集工作使用此预设
未经 DPO 审批，任何人不得修改预设

每个人现在产出相同的结果，合并后的数据集一致，年度 AI 审计零发现。此前一年因数据集工作不一致产生了三项发现。

2026 年更新

欧盟 AI 法案已于 2024 年 8 月正式生效，为使用个人信息进行模型训练的 AI 系统添加了新规范。高风险 AI 系统必须记录其数据集，包括所应用的匿名化措施。

GDPR 第 5 条第 1 款第 b 项——目的限制原则——禁止在没有明确合法依据的情况下使用个人信息。CNIL 2024 年的案件聚焦于这一缺口：为某一服务收集的数据被用于模型训练，既无有效依据，也未经过匿名化处理。

预设有助于同时满足两套规则的要求：

预设名称和配置：已记录的处理方法
处理日志：方法已执行的证明
DPO 审批：配置的书面签核

这形成了两部法律均要求的审计追踪。关于第 10 条义务的详细内容，参阅欧盟 AI 法案训练数据指南。

NLP 数据集的预设配置

大多数 NLP 数据集应包含的实体类型：

PERSON——用相似姓名替换
EMAIL_ADDRESS——用合成地址替换
PHONE_NUMBER——用合成号码替换
CREDIT_CARD / IBAN——替换或脱敏
LOCATION——位置信息重要时用相似地点替换，否则脱敏
DATE_OF_BIRTH——脱敏，通常需要年龄分组处理

通常无需包含的实体类型：

一般日期——时间戳有助于时序模型
机构名称——有助于命名实体识别模型
URL——有助于链接和引用模型

ML 负责人和 DPO 共同在经审批的预设中确定上述规则，团队成员负责应用，无需做出配置决策。

预设作为组织记忆

预设使用前： 正确的实体配置保存在三名数据科学家的头脑中——他们曾参与合规审查。两人在第三季度离职，知识随之流失。

预设使用后： 配置存储在「ML 开发——客户记录 v2.1」中，版本日志记录了创建时间、审批人和相对 v2.0 的变更内容。新团队成员使用预设，即可获得其中内含的所有积累知识。

v2.1 在审查发现 IBAN 检测缺失后将其添加，v2.0 于 2025 年 2 月审批，日志完整无缺。

关于处理日志和 DPO 审查流程的详细内容，参阅 GDPR ML 训练数据匿名化指南。

预设与 CNIL 监管模式

CNIL 2024 年的 AI 案件确立了清晰的监管逻辑：他们不仅询问删除了什么，还询问如何治理。一个带有 DPO 审批记录和处理日志的共享预设，能够直接回答这一问题。

临时配置无法给出这样的答案。遵循 CNIL 逻辑的其他欧盟 DPA 案件中存在同样的漏洞。关于 CNIL AI 监管方式的深入内容，参阅 CNIL 法国 GDPR AI 合规指南。

结语

文档告诉团队成员该做什么，预设让他们每次都能以相同方式轻松执行，且具有约束力。

对于 ML 训练数据集而言，一致性既是法律需求，也是技术需求，预设能同时满足两者。

关注 AI 实践的数据保护机构需要统一匿名化的证据，一个以相同方式应用于所有数据集工作的预设，是你能提供的最有力证明。

参考资料

准备好保护您的数据了吗？

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

开始免费试用查看功能

可重复的隐私保护：机器学习预设的必要性

可重复的隐私保护：为何 ML 团队需要预设而非文档

为何 ML 数据集需要专属配置

12 名数据科学家的困境

NLP 数据集的预设配置

预设作为组织记忆

预设与 CNIL 监管模式

结语

参考资料

相关文章

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

准备好保护您的数据了吗？

可重复的隐私保护：机器学习预设的必要性

可重复的隐私保护：为何 ML 团队需要预设而非文档

为何 ML 数据集需要专属配置

12 名数据科学家的困境

GDPR 与欧盟 AI 法案

NLP 数据集的预设配置

预设作为组织记忆

预设与 CNIL 监管模式

结语

参考资料

相关文章

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

准备好保护您的数据了吗？

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow