CNIL 法国:GDPR 技术合规指南
欧盟最严格的隐私监管机构
法国的数据监管机构是CNIL(Commission Nationale de l'Informatique et des Libertés,全国信息与自由委员会)。它制定了欧盟最精细的隐私法规标准。大多数欧盟监管机构发布的是宏观性指导意见,而CNIL更进一步,发布名为「recommandations」(建议)的详细技术规范,明确界定GDPR合规的具体标准。
其他欧盟监管机构常常参照CNIL的成果。核心文件包括2023年《实用匿名化指南》(Guide pratique de l'anonymisation)和2024年AI指导意见。
从数据来看,该机构行动力十足:2023年处理了16,433起投诉,较2022年增长43%,自执法启动以来累计开出约1.5亿欧元的GDPR罚款。
AI训练数据:六类需要清洗的记录
CNIL的2024年AI指导意见适用范围广泛,涵盖所有使用法国个人数据训练AI的组织,以及向法国用户提供AI工具服务的机构。
该机构列出了在AI训练前须进行数据清洗的六类记录:
- Identifiants directs(直接标识符): 姓名、地址、身份证号码。训练前须删除或替换。
- Identifiants quasi-directs(准标识符): 可能组合导致再识别的特征集合。须进行k-匿名性检验。
- Données sensibles(敏感数据): 健康、生物特征、政治观点和宗教信仰数据。须配以额外管控措施单独处理。
- Données comportementales(行为数据): 浏览记录和使用模式。须进行聚合或脱敏处理。
- Données inférées(推断数据): AI从使用行为中衍生的信号。须严格限制使用目的。
- Données relatives aux mineurs(未成年人数据): 15周岁以下人员的任何相关记录。须进行年龄核查并采用严格的数据清洗措施。
如果使用了基于网络抓取内容训练的大语言模型,则需要提供书面证明,说明训练数据经过了审核和清洗。详情请参阅我们的GDPR合规指南。
匿名化指南:核心规则
2023年指南是欧盟在这一领域迄今最详尽的文件,确立了何为「真正匿名」的标准。
批准使用的技术:
- k-匿名性 — 每条记录至少与其他k-1条记录无法区分
- l-多样性 — 每个分组内的敏感属性保持多样性
- 差分隐私 — 在统计输出中加入噪声
- 假名化 — 属于降低风险的手段,而非真正的匿名化
必要记录文档:
每项采用数据清洗的处理活动,CNIL均要求建立「fiche d'anonymisation」(匿名化记录表),内容须包括:
- 所用技术及其关键参数(k值、epsilon值)
- 再识别风险评估结果
- 验证方式(测试或外部审核)
- 负责人信息及审核日期
再识别风险评估:
在将数据标记为匿名之前,须进行正式的风险评估:一个有动机的人能否重新识别出当事人?考量现有辅助数据集的情况,并结合完整的使用场景加以评判。
法国个人信息检测:工具必须覆盖的内容
法国法规要求支持法语个人信息检测,工具须能识别法国特有的身份证件类型。
须覆盖的关键标识符:
- NIR: 15位数字(13位基础码+2位校验码),即法国社会安全号码。
- Carte vitale编号: 医疗保险卡ID。
- SIRET/SIREN: 出现在个人文件中的企业注册号。
- Numéro d'ordre professionnel: 医生、律师和会计师的注册证号。
- CNI(Carte nationale d'identité): 法国国家身份证编号。
法语命名实体识别模型须能处理法语姓名格式,包括复合名(Jean-Pierre)、贵族冠词(de、du、des)和带连字符的姓氏。关于多语言覆盖方案,请参阅我们的多语言PII检测指南。
执法动态:哪些行为会被处罚
该机构的罚款呈现出清晰的规律,主要指向技术管控措施缺失,单纯的流程问题很少成为主要处罚依据。
Clearview AI — 2,000万欧元罚款(2022年): 该公司在没有合法依据的情况下处理了法国公民的生物特征数据,相关数据通过网络公开抓取获得。此案确立了一条原则:大规模网络抓取数据用于AI训练,须具有明确的合法依据。
TikTok — 2024年启动调查: 调查聚焦于可能从使用行为信号中推断敏感类别数据的系统,该调查方法已成为欧盟AI审计的参考范本。
生成式AI审查(2024—2025年): 监管机构对法国市场的大语言模型服务商展开审查,重点检查训练内容的数据来源。缺乏完整记录的服务商须补充完善管控措施。
CNIL合规的四个步骤
如果您处理法国个人数据,须确保以下四项工作到位。
1. 为每项处理活动建立匿名化记录表
每项涉及数据清洗的处理活动须建立独立的记录表,注明所用技术、关键参数、风险评估结果和审核日期。
2. AI预处理日志
记录所用PII检测工具的名称,注明检测到的实体类型,记录已删除或脱敏的内容,并妥善保存以备审计之用。
3. 法语个人信息检测覆盖
确认工具能够检测NIR、carte vitale和CNI编号。在真实法语姓名上测试法语命名实体识别模型,记录发现的覆盖缺口,以及为弥补缺口所采取的管控措施。
4. 训练内容来源记录
针对抓取内容:记录数据来源的清洗审查过程。针对用户数据:记录用户数据的清洗处理过程。我们的安全合规概览展示了这些内容如何融入更完整的保障体系。
记录完善的组织能够高效通过审计。现在就开始建立档案,不要等到接受检查时才着手。