By · Last updated 2026-06-05

返回博客GDPR 与合规

法国CNIL:数据保护机构对PII工具的技术要求

CNIL 2023年处理16,433件投诉(同比增长43%)。63%的CNIL通知指出AI匿名化不足。78%的通用工具无法检测NIR/法国社会保障号码。

June 5, 20269 分钟阅读
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

法国CNIL:数据保护机构对PII工具的技术要求

法国信息与自由委员会(CNIL)是欧盟要求最为严格的数据监管机构。多数欧盟监管机构仅制定原则性规则,CNIL则更进一步,发布称为「建议」(recommandations)的精确技术指南,为匿名化和AI数据使用设定了明确的技术标准。

2024年CNIL通知中频繁援引AI系统匿名化不足问题。该机构2023年共受理16,433件投诉,较2022年增加43%。

CNIL指南引领欧盟政策方向

CNIL的技术文件被欧盟其他数据保护机构广泛引用,其中两份指南最为重要。

**《匿名化实践指南》(2023年):**该指南覆盖k-匿名性、l-多样性和差分隐私,并结合法国数据实例展示各方法的应用方式。瑞典数据保护机构(IMY)及其他欧盟机构均将其纳入自身规则体系。

**AI系统指南(2024年):**CNIL列出了AI训练中须处理的六类数据,是欧盟唯一在AI领域给出如此明确要求的数据保护机构。

**Cookie规则:**CNIL的Cookie指南为欧盟同意管理工具设定了最高技术标准,且定期更新。

NIR:法国最敏感的身份标识

国家人口登记号(NIR)——又称「社会保障号码」(numéro de sécurité sociale)——是一个15位数字的法国社会保障号码。

其格式为:S AA MM DD CCC OOO K

  • S — 1位:性别
  • AA — 出生年份
  • MM — 出生月份
  • DD — 出生省份代码(01–95,科西嘉岛使用2A/2B,海外省使用97–99,外国出生使用99)
  • CCC — 市镇代码
  • OOO — 出生序号
  • K — 2位校验密钥(97 − (NIR mod 97))

NIR在一个号码中同时编码了性别、出生日期和出生地。CNIL将其列为高风险数据,须参照GDPR第9条特殊类别数据的标准加以保护。

**工具漏检NIR的原因:**通用NLP工具漏检NIR有三个原因:其一,15位数字(通常连续书写)与其他长数字难以区分;其二,第7至11位编码了省份代码,跳过mod-97校验的工具会放过大量误报;其三,科西嘉岛省份代码使用2A和2B而非纯数字,仅支持纯数字格式的工具在此处会失效。

有效的NIR检测须具备三项能力:mod-97密钥校验、地理编码本查询,以及科西嘉岛特殊规则支持。

有关身份标识覆盖范围如何融入GDPR保障体系,请参阅我们的安全合规概览

SIREN与SIRET:个人文件中的企业身份标识

**SIREN:**9位法国企业识别码,末位为Luhn校验位,出现在所有法国商业文件中。

**SIRET:**14位编号,由SIREN(9位)加机构代码(5位)构成,标识具体经营地点,而SIREN标识企业主体。

企业文件中常将SIRET号码与员工姓名并列,CNIL将「SIRET+姓名」的组合视为个人数据,即便文件中没有独立的个人数据字段,该组合同样触发GDPR适用条件。

AI训练的六步匿名化要求

CNIL 2024年AI指南涵盖六类数据,在将法国个人数据用于AI训练之前,须逐一处理:

  1. 删除直接标识符 — 须替换或删除姓名、NIR、SIREN
  2. 泛化准标识符 — 年龄、省份、职业等字段组合可能实现重新识别,须降低其精度
  3. 对数值字段添加噪声 — 须添加经过校准的噪声以阻断推断攻击
  4. 验证k-匿名性 — 每条记录须与至少k-1条其他记录无法区分;CNIL建议k≥5
  5. 验证l-多样性 — 每个等价组内的敏感属性须具备充分多样性
  6. 执行重新识别风险评估 — 在任何数据发布前须采用有据可查的方法进行评估

仅删除NIR和全名是不够的,CNIL已在执法中多次确认这一立场。邮政编码和医疗专业等准标识符同样需要处理。

有关法国数据保护机构审计所期望的合规记录,请参阅我们的GDPR合规指南

法语个人身份信息检测的语言背景

法国存在若干影响检测的语言背景因素。

标准法语是所有官方文件的书写语言,NER模型须支持带变音符号的字母:é、è、ê、ë、à、â、î、ô、û、ç、œ。

**海外省份(DOM-TOM):**马提尼克岛、瓜德罗普岛、留尼汪岛、法属圭亚那和马约特岛使用97至98范围内的NIR代码,当地姓名格式与法国本土有所不同。

**阿尔萨斯-摩泽尔地区:**法国文件中可能出现德语来源的姓名和部分德语文件格式,仅在标准法语文本上训练的模型可能对此产生漏检。

**跨境使用:**比利时法语使用不同的身份证格式,在法国和比利时同时使用的工具须为各自制定专属规则。

您的工具必须具备的能力

法语合规要求四项技术能力:

  1. 具备mod-97校验的NIR检测 — 单纯的模式匹配会失效,工具须执行密钥校验并支持2A/2B代码。
  2. 具备Luhn校验的SIREN/SIRET检测 — 企业身份标识出现在个人文件中,与姓名组合后产生GDPR约束。
  3. 支持完整变音符号的法语NER — 须处理复合名(Jean-Pierre)、姓氏小品词(de、du、des)和带变音符号的字母。
  4. 有据可查的六步流程 — 任何使用法国个人数据的AI训练流程均须为每项匿名化活动留存书面记录。

参考来源

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.