CNILフランス:DPA PIIツール要件
フランスのCNIL(Commission Nationale de l'Informatique et des Libertés)は、EUで最も技術的に厳しいデータ保護当局です。ほとんどのEU当局は幅広い規則を定めています。CNILはさらに踏み込んでいます。recommandationsと呼ばれる精密な技術指針を公表し、匿名化とAIデータ利用の厳格な基準を設けています。
2024年のCNILの正式通知では、AIシステムにおける不十分な匿名化が頻繁に指摘されました。CNILは2023年に16,433件の苦情を受け付けました。これは2022年比43%増です。
CNILの指針がEU政策を形成する
CNILの技術文書は他のEUデータ保護当局から広く参照されています。特に重要なガイドが2つあります。
Guide pratique de l'anonymisation(2023年): このガイドはk-匿名化、l-多様性、差分プライバシーを扱っています。各手法をフランスのデータにどう適用するかを示しています。スウェーデンのIMYや他のEU機関が独自の規則の中でこれを引用しています。
AIシステム指針(2024年): CNILはAI学習において対処すべき6種類のデータを列挙しています。AIに関してここまで踏み込んだEUのDPAは他にありません。
クッキー規則: CNILのクッキー指針はEUで同意管理ツールに対する最も高い技術基準を設けています。定期的に更新されます。
NIR:フランスで最も機密性の高い識別子
Numéro d'Inscription au Répertoire(NIR)は、numéro de sécurité sociale(社会保障番号)とも呼ばれ、15桁のフランス社会保険番号です。
そのフォーマットは S AA MM DD CCC OOO K です。
- S — 1桁:性別
- AA — 生年(2桁)
- MM — 生月(2桁)
- DD — 出生県(01〜95、コルシカは2A/2B、海外領土は97〜99、外国は99)
- CCC — 市区町村コード
- OOO — 出生順序番号
- K — 2桁のチェックキー(97 − (NIR mod 97))
NIRは性別・生年月日・出生地を1つの数字に集約しています。CNILはこれを高リスクデータとして扱います。GDPR第9条の特別カテゴリデータと同水準の保護が求められます。
ツールがNIRを見逃す理由: 汎用NLPツールが失敗するのは3つの理由からです。第1に、15桁の数字(しばしばスペースなしで記載)は他の長い数字列と見分けにくいためです。第2に、7〜11桁目には県コードが含まれ、mod-97チェックを省略するツールは誤検知を通過させてしまいます。第3に、コルシカ島の県は純粋な数字ではなく2Aと2Bを使用するため、数値パターン専用のツールはここで失敗します。
適切なNIR検出には3つが必要です:mod-97キー検証、地理コードブック、そしてコルシカ対応のパターンルールです。
セキュリティコンプライアンス概要では、識別子のカバレッジがGDPR保護の枠組みにどう組み込まれるかを解説しています。
SIRENとSIRET:個人ファイルに含まれる企業識別子
SIREN: ルーンチェックディジット付きの9桁のフランス企業識別番号。すべてのフランス商業文書に記載されています。
SIRET: SIREN(9桁)に事業所コード(5桁)を加えた14桁の番号。SIRETは特定の事業所を、SIRENは会社を識別します。
業務ファイルには従業員の名前の隣にSIRET番号が記載されていることがよくあります。CNILはSIRETと個人名の組み合わせを個人データとして扱います。この組み合わせは、個別の個人データフィールドがなくてもGDPRの義務を発生させます。
AI学習のための6段階匿名化
CNILの2024年AI指針は6種類のデータを特定しています。フランスの個人データをAI学習に使用する前に、それぞれを対処する必要があります:
- 直接識別子の除去 — 氏名、NIR、SIRENは置換または削除する
- 準識別子の一般化 — 年齢・県・職業が組み合わさると個人を特定できる。精度を下げる
- 数値へのノイズ付加 — 数値フィールドには推論を防ぐための適切なノイズが必要
- k-匿名化の検証 — 各個人が少なくともk-1人と区別できない状態にする;CNILはk ≥ 5を目安としている
- l-多様性の検証 — センシティブな属性が各グループ内で変化している必要がある
- 再識別リスク評価 — データ公開前に文書化された手法でリスクを評価する
NIRと氏名だけを削除しても不十分です。CNILは施行手続きの中でこれを確認しています。郵便番号や医療専門分野などの準識別子も処理が必要です。
GDPRコンプライアンスガイドでは、フランスのDPA監査で求められる文書を解説しています。
フランス語PII検出のための言語的文脈
フランスには検出に影響するいくつかの言語的文脈があります。
標準フランス語はすべての公式文書の言語です。NERモデルはアクセント付き文字を処理できる必要があります:é, è, ê, ë, à, â, î, ô, û, ç, œ
海外県・海外領土(DOM-TOM): マルティニーク、グアドループ、レユニオン、ギアナ、マヨットはNIRコードに97〜98の範囲を使用します。現地の名前のパターンは本土フランスと異なります。
アルザス=モゼル: ドイツ系の名前とドイツの文書形式の一部がフランスの記録に現れます。標準フランス語のみで学習したモデルはこれらの名前を見落とす可能性があります。
越境利用: ベルギーのフランス語は異なるID形式を使用します。フランスとベルギーで使用するツールには、それぞれの形式に対応したルールが必要です。
ツールが対応すべき要件
フランスのコンプライアンスには4つの技術的能力が必要です:
- mod-97検証付きNIR — パターンマッチングだけでは不十分です。ツールはキー検証を実行し、2A/2Bコードに対応する必要があります。
- ルーン検証付きSIREN/SIRET — 企業識別子は個人ファイルに登場し、GDPRの対象となる氏名との組み合わせを生み出します。
- 完全なアクセント対応のフランス語NER — 複合名(Jean-Pierre)、冠詞(de, du, des)、アクセント付き文字に対応する必要があります。
- 6段階の文書化されたプロセス — フランスのデータを使用するAI学習パイプラインには、各匿名化活動の書面記録が必要です。