返回博客技术

可重复的隐私:为什么机器学习团队需要配置预设,而不仅仅是文档

机器学习训练数据的匿名化必须是一致和可重复的。如果数据科学家A和B应用不同的实体类型,训练数据集就会不一致。2024年,CNIL调查了多家AI公司不当使用训练数据。预设是技术解决方案。

March 12, 20266 分钟阅读
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

可重复的隐私:为什么机器学习团队需要配置预设,而不仅仅是文档

数据保护官批准了匿名化程序文档。它规定:使用替换方法从训练数据集中删除姓名、电子邮件、电话号码和出生日期。该文档有4页,存放在合规维基中。

十二名数据科学家在项目启动时查阅该文档。他们配置自己的匿名化工具版本。有些人添加国家身份证。有些人包括IP地址。有些人使用删除而不是替换。三个月后,训练数据集不一致。

CNIL(法国数据保护局)在2024年调查了多家AI公司不当使用个人数据进行训练数据集的情况。调查不仅检查了是否进行了匿名化,还检查了其应用的一致性。

文档是必要的,但不足够。技术解决方案是预设。

为什么机器学习训练数据需要特定配置

机器学习训练数据的匿名化有一般文档匿名化所没有的要求:

替换,而不是删除: 在文本中用**[已删除]标记替换姓名训练的神经语言模型会学习到[已删除]**是出现在姓名位置的特殊标识符。这会导致不良的模型行为。替换方法(将"John Smith"替换为"David Chen")在删除识别信息的同时保留了文本中姓名的统计分布。模型从现实的姓名位置分布中学习,而不是从掩码标记中学习。

数据集的一致性: 一个训练数据集中70%的姓名被替换而30%是**[已删除]**会产生不一致的训练信号。所有记录都应该以相同的方式处理。

一致的实体选择: 如果训练数据集包含健康数据,在某些记录中删除姓名但不删除出生日期会造成不一致。所有12名数据科学家必须删除相同的实体类型。

没有过度匿名化: 过度应用替换方法——删除仅仅是时间戳而不是出生日期的日期——会降低数据集的效用,而不改善合规性。批准的预设明确规定了要删除的日期实体(出生日期,而不是一般时间戳)。

运行间的可重复性: 如果同一数据集需要重新处理(例如,在检测到遗漏的实体类型后),使用相同的预设重新处理会产生一致的输出。临时配置是不可重复的。

12名数据科学家问题

一家欧洲金融科技公司的机器学习团队使用从客户互动日志中派生的训练数据集。数据保护官批准了处理目的(用于欺诈检测的模型训练),并附加条件:在任何模型训练之前,所有客户姓名、电子邮件、电话号码和支付标识符必须使用替换方法进行替换。

没有预设:

  • 数据科学家1删除姓名、电子邮件、电话号码(不包括支付标识符)
  • 数据科学家2包括支付标识符,但使用删除而不是替换
  • 数据科学家3完全遵循程序文档
  • 数据科学家4-12各不相同

结果:12个不同处理版本的训练数据。合并的数据集部分不合规,部分过度匿名化,并且统计上不一致。

使用数据保护官批准的预设:

  • 数据保护官创建"机器学习训练——欺诈检测"预设,包含确切的实体类型和替换方法
  • 预设与所有12名数据科学家共享,并附有说明:"在所有训练数据准备中使用此预设"
  • 未经数据保护官审核,预设不能被修改(配置访问控制)

结果:所有12名数据科学家产生相同的匿名化输出。合并的数据集是一致的。年度AI合规审计通过,没有发现问题。

前一年:3个与不一致的机器学习训练数据匿名化相关的问题。预设后:0个问题。

GDPR与AI法案的交集

欧盟AI法案(自2024年8月生效)为使用个人数据进行训练的AI系统增加了合规要求。高风险AI系统必须记录其训练数据,包括应用的匿名化措施。

GDPR的目的限制原则(第5条第1款(b))限制在没有特定法律依据的情况下使用个人数据进行机器学习训练。CNIL在2024年对AI公司的执法行动集中在这一交集:为服务交付收集的个人数据在没有充分法律依据或匿名化的情况下被用于训练。

GDPR和AI法案的文档要求在通过技术手段强制执行训练数据匿名化过程时更容易满足:

  • 预设名称和配置:文档化的匿名化方法
  • 处理日志:证据表明该方法已应用于特定数据集
  • 数据保护官批准:记录的决定授权预设配置

这创建了两项法规所需的审计追踪。

机器学习训练数据的预设配置

大多数NLP训练数据的实体类型:

  • PERSON(姓名——用相似姓名替换)
  • EMAIL_ADDRESS(用合成电子邮件替换)
  • PHONE_NUMBER(用合成电话号码替换)
  • CREDIT_CARD / IBAN(替换或删除——支付数据)
  • LOCATION(如果模型需要地理信息则用相似位置替换;如果不需要则删除)
  • DATE_OF_BIRTH(删除——通常需要年龄概括)

通常不包括在NLP训练数据中的实体类型:

  • 一般日期(不是出生日期)——文本中的时间戳和日期通常用于时间建模
  • 组织名称——通常用于实体识别训练
  • URLs——通常用于链接和参考提取

机器学习负责人和数据保护官在批准的预设中定义了这些区别。个别数据科学家不做这些决定——他们应用预设。

机构知识与预设版本控制

预设具有机构记忆功能:

在预设之前: 机器学习训练数据的正确实体配置存在于三名经过合规审查过程的数据科学家的脑海中。当其中两人在第三季度离开时,机构知识丧失。

在预设之后: 配置被编码为"机器学习训练——客户数据v2.1"。版本历史显示了创建时间、批准人以及v2.0和v2.1之间的变化。新的数据科学家使用预设,并继承其中嵌入的机构知识。

版本2.1在合规审查发现缺失后添加了IBAN检测。版本2.0的记录显示其在2025年2月获得批准。审计追踪完整。

结论

文档告诉团队成员该做什么。预设使得技术上容易——并且技术上可强制执行——以一致的方式做到这一点。

对于机器学习训练数据而言,一致性既是合规要求(GDPR,AI法案),也是技术要求(模型训练需要一致的预处理)。预设同时满足这两者。

CNIL和其他数据保护局调查AI训练数据实践时,将寻找系统性、一致性匿名化的证据。统一应用于所有训练数据准备的预设是最强有力的证据。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。