By · Last updated 2026-06-05

返回博客GDPR 与合规

CNIL 法国:GDPR 技术合规指南

CNIL在2023年处理了16,433起投诉,自2019年以来累计开出逾1.5亿欧元罚款。其AI指导意见要求对训练数据进行有据可查的匿名化处理。

June 5, 20267 分钟阅读
CNIL FranceFrench GDPRAI anonymizationFrench data protectionprivacy by design

CNIL 法国:GDPR 技术合规指南

欧盟最严格的隐私监管机构

法国的数据监管机构是CNIL(Commission Nationale de l'Informatique et des Libertés,全国信息与自由委员会)。它制定了欧盟最精细的隐私法规标准。大多数欧盟监管机构发布的是宏观性指导意见,而CNIL更进一步,发布名为「recommandations」(建议)的详细技术规范,明确界定GDPR合规的具体标准。

其他欧盟监管机构常常参照CNIL的成果。核心文件包括2023年《实用匿名化指南》(Guide pratique de l'anonymisation)和2024年AI指导意见。

从数据来看,该机构行动力十足:2023年处理了16,433起投诉,较2022年增长43%,自执法启动以来累计开出约1.5亿欧元的GDPR罚款。

AI训练数据:六类需要清洗的记录

CNIL的2024年AI指导意见适用范围广泛,涵盖所有使用法国个人数据训练AI的组织,以及向法国用户提供AI工具服务的机构。

该机构列出了在AI训练前须进行数据清洗的六类记录:

  1. Identifiants directs(直接标识符): 姓名、地址、身份证号码。训练前须删除或替换。
  2. Identifiants quasi-directs(准标识符): 可能组合导致再识别的特征集合。须进行k-匿名性检验。
  3. Données sensibles(敏感数据): 健康、生物特征、政治观点和宗教信仰数据。须配以额外管控措施单独处理。
  4. Données comportementales(行为数据): 浏览记录和使用模式。须进行聚合或脱敏处理。
  5. Données inférées(推断数据): AI从使用行为中衍生的信号。须严格限制使用目的。
  6. Données relatives aux mineurs(未成年人数据): 15周岁以下人员的任何相关记录。须进行年龄核查并采用严格的数据清洗措施。

如果使用了基于网络抓取内容训练的大语言模型,则需要提供书面证明,说明训练数据经过了审核和清洗。详情请参阅我们的GDPR合规指南

匿名化指南:核心规则

2023年指南是欧盟在这一领域迄今最详尽的文件,确立了何为「真正匿名」的标准。

批准使用的技术:

  • k-匿名性 — 每条记录至少与其他k-1条记录无法区分
  • l-多样性 — 每个分组内的敏感属性保持多样性
  • 差分隐私 — 在统计输出中加入噪声
  • 假名化 — 属于降低风险的手段,而非真正的匿名化

必要记录文档:

每项采用数据清洗的处理活动,CNIL均要求建立「fiche d'anonymisation」(匿名化记录表),内容须包括:

  • 所用技术及其关键参数(k值、epsilon值)
  • 再识别风险评估结果
  • 验证方式(测试或外部审核)
  • 负责人信息及审核日期

再识别风险评估:

在将数据标记为匿名之前,须进行正式的风险评估:一个有动机的人能否重新识别出当事人?考量现有辅助数据集的情况,并结合完整的使用场景加以评判。

法国个人信息检测:工具必须覆盖的内容

法国法规要求支持法语个人信息检测,工具须能识别法国特有的身份证件类型。

须覆盖的关键标识符:

  • NIR: 15位数字(13位基础码+2位校验码),即法国社会安全号码。
  • Carte vitale编号: 医疗保险卡ID。
  • SIRET/SIREN: 出现在个人文件中的企业注册号。
  • Numéro d'ordre professionnel: 医生、律师和会计师的注册证号。
  • CNI(Carte nationale d'identité): 法国国家身份证编号。

法语命名实体识别模型须能处理法语姓名格式,包括复合名(Jean-Pierre)、贵族冠词(de、du、des)和带连字符的姓氏。关于多语言覆盖方案,请参阅我们的多语言PII检测指南

执法动态:哪些行为会被处罚

该机构的罚款呈现出清晰的规律,主要指向技术管控措施缺失,单纯的流程问题很少成为主要处罚依据。

Clearview AI — 2,000万欧元罚款(2022年): 该公司在没有合法依据的情况下处理了法国公民的生物特征数据,相关数据通过网络公开抓取获得。此案确立了一条原则:大规模网络抓取数据用于AI训练,须具有明确的合法依据。

TikTok — 2024年启动调查: 调查聚焦于可能从使用行为信号中推断敏感类别数据的系统,该调查方法已成为欧盟AI审计的参考范本。

生成式AI审查(2024—2025年): 监管机构对法国市场的大语言模型服务商展开审查,重点检查训练内容的数据来源。缺乏完整记录的服务商须补充完善管控措施。

CNIL合规的四个步骤

如果您处理法国个人数据,须确保以下四项工作到位。

1. 为每项处理活动建立匿名化记录表

每项涉及数据清洗的处理活动须建立独立的记录表,注明所用技术、关键参数、风险评估结果和审核日期。

2. AI预处理日志

记录所用PII检测工具的名称,注明检测到的实体类型,记录已删除或脱敏的内容,并妥善保存以备审计之用。

3. 法语个人信息检测覆盖

确认工具能够检测NIR、carte vitale和CNI编号。在真实法语姓名上测试法语命名实体识别模型,记录发现的覆盖缺口,以及为弥补缺口所采取的管控措施。

4. 训练内容来源记录

针对抓取内容:记录数据来源的清洗审查过程。针对用户数据:记录用户数据的清洗处理过程。我们的安全合规概览展示了这些内容如何融入更完整的保障体系。

记录完善的组织能够高效通过审计。现在就开始建立档案,不要等到接受检查时才着手。

参考资料

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.