ブラジルLGPD:CPF、CNPJとデータ保護
ブラジルのLei Geral de Proteção de Dados(LGPD)は2億1500万人を対象とします。人口規模では世界第3位のデータ保護法です。ドイツ、フランス、英国を合わせた人口より多くの人を対象としています。Autoridade Nacional de Proteção de Dados(ANPD)は2024年に初めての主要な制裁を発動しました。2020年のLGPD施行後の猶予期間は終わりました。
技術的な課題もあります。LGPDの対象文書はブラジルポルトガル語で書かれています。ブラジルの国民IDはポルトガルのものとは異なります。他のどの国のIDとも異なります。
ブラジルの個人情報が異なる理由
ブラジルの連邦・州のIDシステムは、ヨーロッパのデジタル本人確認システムとは別々に発展しました。その結果、独自の識別子のセットが生まれました。ほとんどのNLPツールは英語やヨーロッパのデータで訓練されています。ローカルIDを検出できません。
CPF(Cadastro de Pessoas Físicas): 11桁の納税者番号です。形式:XXX.XXX.XXX-XX。チェックデジットが2つあります。計算式は2つの別々の計算ステップを使います。CPFが有効であるためには、両方が一致する必要があります。
検出のギャップは大きいです。英語で訓練されたNLPツールのCPF検出精度はわずか45%です(ANPD、2024年)。2つの理由があります。第一に、2ステップのチェックデジットロジックなしで11桁の数字を照合するツールは、有効なCPF番号とランダムな数字を混同します。第二に、CPFがXXX.XXX.XXX-XX形式なしで現れることがあります。OCR出力やプレーンテキストフォームで起きます。
CNPJ(Cadastro Nacional da Pessoa Jurídica): 14桁の企業ID番号です。形式:XX.XXX.XXX/XXXX-XX。チェックデジットが2つあります。計算式はCPFに似ていますが、同じではありません。
RG(Registro Geral): 州が発行する市民IDカードです。形式は州によって異なります。サンパウロは2文字と5〜9桁を使います。リオデジャネイロはダッシュ付きの7〜8桁を使います。ミナスジェライスは7〜9桁を使います。他の州はそれぞれの形式があります。1つの州のRG形式しか知らないツールは、ほとんどのRG番号を見逃します。
CNH(Carteira Nacional de Habilitação): 11桁の運転免許証番号です。チェックデジットが1つあります。形式には管轄区コードが含まれます。
Título de Eleitor: 12桁の選挙人IDです。3つの部分があります:8桁のIDコード、2桁の州コード、2つのチェックデジット。
SUS番号(Cartão SUS): 15桁の公共医療IDです。国内のすべての人が1つ持ちます。すべての病院とクリニックの記録に現れます。
PIS/PASEP: 11桁の社会プログラム番号です。すべての雇用記録に現れます。
LGPDの匿名化基準
LGPD第12条は匿名データを定義します。基準:「処理の時点で利用可能な合理的な技術的手段を考慮して識別できない」データです。これは技術相対的な基準です。今日の匿名化データは、再識別手法が進歩すると匿名のままでない可能性があります。
ANPDはさらに指針を加えます。CPFや名前などの直接識別子を削除するだけでは不十分です。準識別子のグループによっても再識別が可能な場合があります。年齢層、都市、性別、職業を組み合わせると個人を特定できます。これらはグループ化またはノイズ付加によって処理する必要があります。
AI訓練データについては、ANPDは3つの条件のいずれかを要求します。第一:データは第12条の基準を満たす。第二:各データ主体が特定の訓練使用に明示的な同意を与えた。第三:有効な文書化された目的がある。
言語要件
ブラジルポルトガル語はヨーロッパポルトガル語とは異なります。単語、スペル、文書の形式が同じではありません。ポルトガルのテキストで訓練されたNLPモデルは、ローカルテキストで訓練されたモデルの約71%の精度しか達成できません。ANPDの技術評価からわかります。
個人情報検出に関する主な違い:
- 名前: 複合姓の使用と名前の順序がポルトガルとは異なります。
- 住所: CEPコードはXXXXX-XXX形式を使います。この形式は国固有です。専用の検出ロジックが必要です。
- 文書用語: ここでは「Carteira de Identidade」、ポルトガルでは「Bilhete de Identidade」。機関名も異なります。
ANPDコンプライアンスに必要なこと
ANPD準拠には4つの技術要件があります。CPFとCNPJの検出には2ステップのチェックデジット検証が必要です。RG検出はすべての州をカバーする必要があります。SUS番号とTítulo de Eleitorの検出も必要です。NLPモデルはローカルポルトガル語テキストで訓練される必要があります。
グローバルな個人情報識別子検出と2024年のLGPD執行措置のガイドもご覧ください。