By · Last updated 2026-06-04

返回博客技术

可重复的隐私保护:机器学习预设的必要性

机器学习训练数据的匿名化必须保持一致性和可重复性。如果数据科学家 A 和 B 应用了不同的实体类型,训练数据集便会产生偏差。

June 4, 20266 分钟阅读
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

可重复的隐私保护:为何 ML 团队需要预设而非文档

DPO 已批准匿名化方案:覆盖姓名、电子邮件、电话号码和出生日期四项内容,处理方法为替换,方案共四页,存放于合规 Wiki。

12 名数据科学家在启动会议上阅读了文档,每人自行配置工具。有人额外添加了国家 ID,有人加入了 IP 地址,有人改为脱敏方式。三个月后,数据集之间不再一致。

CNIL(法国国家信息与自由委员会)于 2024 年检查了多家 AI 公司,焦点在于:在模型训练数据集中不当使用个人信息。他们不只询问是否进行了匿名化,还询问匿名化执行是否一致。

文档是必要的,但远远不够。解决方案在于预设。

为何 ML 数据集需要专属配置

构建训练数据集有其独特需求,与通用文件匿名化并不相同。

替换,而非脱敏。 用**[REDACTED]**替换姓名训练出的模型,会将这个标记视为姓名位置的标志,从而损害模型效果。替换操作将「张三」换成「李四」,模型看到的是真实姓名格式,而非掩码标记。

所有记录统一处理。 若数据集中 70% 的姓名被替换,30% 变成**[REDACTED]**,则发出混合信号。每条记录必须经过相同的处理步骤。

统一的实体清单。 若数据集含有医疗信息,部分记录删除了姓名却保留了出生日期,便会产生遗漏。全部 12 名数据科学家必须移除相同的实体类型。

避免过度删除。 移除时间戳类的日期——而非出生日期——会在没有合规收益的情况下降低数据集质量。经审批的预设精确定义了哪些内容需要移除。

可重复的输出。 若数据集需要重新处理——例如发现遗漏了某种实体类型——预设每次都能给出相同的结果,而临时配置无法保证这一点。

12 名数据科学家的困境

欧洲一家金融科技 ML 团队使用客户日志作为训练数据,DPO 已批准其目的——欺诈检测——并设定了一条规则:模型训练前,所有客户姓名、电子邮件、电话号码和支付 ID 必须被替换。

没有预设时:

  • 第 1 人移除了姓名、电子邮件和电话号码,但遗漏了支付 ID
  • 第 2 人包含了支付 ID,但采用脱敏而非替换方式
  • 第 3 人严格按照方案文档执行
  • 第 4 至 12 人各有差异

合并后的数据集部分不合规,部分过度处理,DPO 无法为其背书。

使用 DPO 审批预设时:

  • DPO 创建「ML 开发——欺诈检测」预设,明确实体类型和替换方法
  • 预设下发给全部 12 人,并设定唯一规则:所有数据集工作使用此预设
  • 未经 DPO 审批,任何人不得修改预设

每个人现在产出相同的结果,合并后的数据集一致,年度 AI 审计零发现。此前一年因数据集工作不一致产生了三项发现。

GDPR 与欧盟 AI 法案

2026 年更新

欧盟 AI 法案已于 2024 年 8 月正式生效,为使用个人信息进行模型训练的 AI 系统添加了新规范。高风险 AI 系统必须记录其数据集,包括所应用的匿名化措施。

GDPR 第 5 条第 1 款第 b 项——目的限制原则——禁止在没有明确合法依据的情况下使用个人信息。CNIL 2024 年的案件聚焦于这一缺口:为某一服务收集的数据被用于模型训练,既无有效依据,也未经过匿名化处理。

预设有助于同时满足两套规则的要求:

  • 预设名称和配置:已记录的处理方法
  • 处理日志:方法已执行的证明
  • DPO 审批:配置的书面签核

这形成了两部法律均要求的审计追踪。关于第 10 条义务的详细内容,参阅欧盟 AI 法案训练数据指南

NLP 数据集的预设配置

大多数 NLP 数据集应包含的实体类型:

  • PERSON——用相似姓名替换
  • EMAIL_ADDRESS——用合成地址替换
  • PHONE_NUMBER——用合成号码替换
  • CREDIT_CARD / IBAN——替换或脱敏
  • LOCATION——位置信息重要时用相似地点替换,否则脱敏
  • DATE_OF_BIRTH——脱敏,通常需要年龄分组处理

通常无需包含的实体类型:

  • 一般日期——时间戳有助于时序模型
  • 机构名称——有助于命名实体识别模型
  • URL——有助于链接和引用模型

ML 负责人和 DPO 共同在经审批的预设中确定上述规则,团队成员负责应用,无需做出配置决策。

预设作为组织记忆

预设使用前: 正确的实体配置保存在三名数据科学家的头脑中——他们曾参与合规审查。两人在第三季度离职,知识随之流失。

预设使用后: 配置存储在「ML 开发——客户记录 v2.1」中,版本日志记录了创建时间、审批人和相对 v2.0 的变更内容。新团队成员使用预设,即可获得其中内含的所有积累知识。

v2.1 在审查发现 IBAN 检测缺失后将其添加,v2.0 于 2025 年 2 月审批,日志完整无缺。

关于处理日志和 DPO 审查流程的详细内容,参阅 GDPR ML 训练数据匿名化指南

预设与 CNIL 监管模式

CNIL 2024 年的 AI 案件确立了清晰的监管逻辑:他们不仅询问删除了什么,还询问如何治理。一个带有 DPO 审批记录和处理日志的共享预设,能够直接回答这一问题。

临时配置无法给出这样的答案。遵循 CNIL 逻辑的其他欧盟 DPA 案件中存在同样的漏洞。关于 CNIL AI 监管方式的深入内容,参阅 CNIL 法国 GDPR AI 合规指南

结语

文档告诉团队成员该做什么,预设让他们每次都能以相同方式轻松执行,且具有约束力。

对于 ML 训练数据集而言,一致性既是法律需求,也是技术需求,预设能同时满足两者。

关注 AI 实践的数据保护机构需要统一匿名化的证据,一个以相同方式应用于所有数据集工作的预设,是你能提供的最有力证明。

参考资料

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.