By · Last updated 2026-06-05

ブログに戻るGDPRおよびコンプライアンス

CNIL フランス: GDPR PII技術準拠

フランスCNILが要求するPII処理のセキュリティ技術的要件。データセキュリティデクリーのフランス版。

June 5, 20269 分で読めます
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

CNILフランス:DPA PIIツール要件

フランスのCNIL(Commission Nationale de l'Informatique et des Libertés)は、EUで最も技術的に厳しいデータ保護当局です。ほとんどのEU当局は幅広い規則を定めています。CNILはさらに踏み込んでいます。recommandationsと呼ばれる精密な技術指針を公表し、匿名化とAIデータ利用の厳格な基準を設けています。

2024年のCNILの正式通知では、AIシステムにおける不十分な匿名化が頻繁に指摘されました。CNILは2023年に16,433件の苦情を受け付けました。これは2022年比43%増です。

CNILの指針がEU政策を形成する

CNILの技術文書は他のEUデータ保護当局から広く参照されています。特に重要なガイドが2つあります。

Guide pratique de l'anonymisation(2023年): このガイドはk-匿名化、l-多様性、差分プライバシーを扱っています。各手法をフランスのデータにどう適用するかを示しています。スウェーデンのIMYや他のEU機関が独自の規則の中でこれを引用しています。

AIシステム指針(2024年): CNILはAI学習において対処すべき6種類のデータを列挙しています。AIに関してここまで踏み込んだEUのDPAは他にありません。

クッキー規則: CNILのクッキー指針はEUで同意管理ツールに対する最も高い技術基準を設けています。定期的に更新されます。

NIR:フランスで最も機密性の高い識別子

Numéro d'Inscription au Répertoire(NIR)は、numéro de sécurité sociale(社会保障番号)とも呼ばれ、15桁のフランス社会保険番号です。

そのフォーマットは S AA MM DD CCC OOO K です。

  • S — 1桁:性別
  • AA — 生年(2桁)
  • MM — 生月(2桁)
  • DD — 出生県(01〜95、コルシカは2A/2B、海外領土は97〜99、外国は99)
  • CCC — 市区町村コード
  • OOO — 出生順序番号
  • K — 2桁のチェックキー(97 − (NIR mod 97))

NIRは性別・生年月日・出生地を1つの数字に集約しています。CNILはこれを高リスクデータとして扱います。GDPR第9条の特別カテゴリデータと同水準の保護が求められます。

ツールがNIRを見逃す理由: 汎用NLPツールが失敗するのは3つの理由からです。第1に、15桁の数字(しばしばスペースなしで記載)は他の長い数字列と見分けにくいためです。第2に、7〜11桁目には県コードが含まれ、mod-97チェックを省略するツールは誤検知を通過させてしまいます。第3に、コルシカ島の県は純粋な数字ではなく2Aと2Bを使用するため、数値パターン専用のツールはここで失敗します。

適切なNIR検出には3つが必要です:mod-97キー検証、地理コードブック、そしてコルシカ対応のパターンルールです。

セキュリティコンプライアンス概要では、識別子のカバレッジがGDPR保護の枠組みにどう組み込まれるかを解説しています。

SIRENとSIRET:個人ファイルに含まれる企業識別子

SIREN: ルーンチェックディジット付きの9桁のフランス企業識別番号。すべてのフランス商業文書に記載されています。

SIRET: SIREN(9桁)に事業所コード(5桁)を加えた14桁の番号。SIRETは特定の事業所を、SIRENは会社を識別します。

業務ファイルには従業員の名前の隣にSIRET番号が記載されていることがよくあります。CNILはSIRETと個人名の組み合わせを個人データとして扱います。この組み合わせは、個別の個人データフィールドがなくてもGDPRの義務を発生させます。

AI学習のための6段階匿名化

CNILの2024年AI指針は6種類のデータを特定しています。フランスの個人データをAI学習に使用する前に、それぞれを対処する必要があります:

  1. 直接識別子の除去 — 氏名、NIR、SIRENは置換または削除する
  2. 準識別子の一般化 — 年齢・県・職業が組み合わさると個人を特定できる。精度を下げる
  3. 数値へのノイズ付加 — 数値フィールドには推論を防ぐための適切なノイズが必要
  4. k-匿名化の検証 — 各個人が少なくともk-1人と区別できない状態にする;CNILはk ≥ 5を目安としている
  5. l-多様性の検証 — センシティブな属性が各グループ内で変化している必要がある
  6. 再識別リスク評価 — データ公開前に文書化された手法でリスクを評価する

NIRと氏名だけを削除しても不十分です。CNILは施行手続きの中でこれを確認しています。郵便番号や医療専門分野などの準識別子も処理が必要です。

GDPRコンプライアンスガイドでは、フランスのDPA監査で求められる文書を解説しています。

フランス語PII検出のための言語的文脈

フランスには検出に影響するいくつかの言語的文脈があります。

標準フランス語はすべての公式文書の言語です。NERモデルはアクセント付き文字を処理できる必要があります:é, è, ê, ë, à, â, î, ô, û, ç, œ

海外県・海外領土(DOM-TOM): マルティニーク、グアドループ、レユニオン、ギアナ、マヨットはNIRコードに97〜98の範囲を使用します。現地の名前のパターンは本土フランスと異なります。

アルザス=モゼル: ドイツ系の名前とドイツの文書形式の一部がフランスの記録に現れます。標準フランス語のみで学習したモデルはこれらの名前を見落とす可能性があります。

越境利用: ベルギーのフランス語は異なるID形式を使用します。フランスとベルギーで使用するツールには、それぞれの形式に対応したルールが必要です。

ツールが対応すべき要件

フランスのコンプライアンスには4つの技術的能力が必要です:

  1. mod-97検証付きNIR — パターンマッチングだけでは不十分です。ツールはキー検証を実行し、2A/2Bコードに対応する必要があります。
  2. ルーン検証付きSIREN/SIRET — 企業識別子は個人ファイルに登場し、GDPRの対象となる氏名との組み合わせを生み出します。
  3. 完全なアクセント対応のフランス語NER — 複合名(Jean-Pierre)、冠詞(de, du, des)、アクセント付き文字に対応する必要があります。
  4. 6段階の文書化されたプロセス — フランスのデータを使用するAI学習パイプラインには、各匿名化活動の書面記録が必要です。

出典

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.