日本のPPCとAPPI:AI学習データコンプライアンス
日本の個人情報保護委員会(PPC)はAPPIを執行しています。2022年の改正は、これまでのどの更新よりも法律を大きく変えました。仮名加工情報、国際的な個人情報の提供、AIの学習データに関するルールが追加されました。PPCは2024年に45件の決定を出しました。また、同年に日本初のAIプライバシーガイドを公表しました。
日本語のテキストでモデルを学習させたり、日本人ユーザーの個人情報を保有している場合、これらのルールは今すぐ適用されます。
2022年改正で変わったこと
240万の日本企業が、プライバシールールの更新と取り扱い手順の見直しを求められました。
仮名加工情報(仮名加工情報): 新しい中間カテゴリーです。直接識別子を削除した個人情報を対象とします。鍵があれば再識別はまだ可能です。これらの情報は、完全な同意なしに組織内で共有できます。第三者に提供することはできません。GDPRにはこのカテゴリーはありません。
匿名加工情報(匿名加工情報): 再識別が技術的に不可能でなければなりません。資格のある第三者がこれを確認する必要があります。この点においてAPPIの基準はGDPRより厳しいです。GDPRでは第三者による確認は任意です。APPIでは必須です。
国際的な個人情報の提供: 他国への提供は日本の保護基準を満たす必要があります。PPCは承認国のリストを管理しています。EUはそのリストに含まれています。
AI学習データ: 2024年のPPCガイダンスでこれを直接取り上げています。
- 学習データは完全に匿名化されているか、有効な法的根拠(通常は同意)に基づいている必要があります。
- 統計的処理の例外は、モデルが出力から個人を特定できない場合にのみ適用されます。
- ウェブサイトからスクレイピングした日本人の情報でLLMを学習させる開発者は、有効な収集根拠を示す必要があります。
国際的なコンプライアンス義務の全体像については、/legal/complianceをご覧ください。
マイナンバー:日本の国民識別番号
マイナンバーは12桁の国民識別番号です。日本はすべての住民に発行しています — 外国人も含まれます。このシステムは2016年から稼働しています。税務、社会保障、災害対応に使用されます。
チェックデジットの仕組み: マイナンバーはVerhoeff法を使用しています。これは数学的なエラーチェック方式です。スウェーデンの個人識別番号やカナダのSINに使われるLuhn法より実装が難しいです。ほとんどの欧州の識別番号は、より単純なモジュラー計算を使用しています。
検出が難しい理由: 12桁の文字列を検索するだけでは日本の文書では不十分です。日付、郵便番号、請求書番号もすべて同じように見えます。区別するには完全なVerhoeffロジックが必要です。単純な正規表現では足りません。
2024年のPPC技術審査には明確な知見があります。汎用的なNLPツールの63%は、日本の文書でマイナンバーを正確に検出できません。
anonym.legalのマイナンバー対応については、/entitiesをご覧ください。
3つの文字体系が同時に
日本語はひらがな、カタカナ、漢字を同時に使用します。ローマ字も一部で使われます。同じ名前がドキュメントによって異なる表記になる場合があります。ラテン文字のテキスト向けに作られたツールは、追加サポートなしに日本語テキストで失敗します。
名前検出への影響:
- 日本語のNERには、日本語テキストで学習したモデルが必要です。spaCy ja_core_newsを使用してください。
- 日本語には単語間のスペースがありません。単語分割は独立したステップです。日本語対応のツールが必要です。
- 人名は漢字で表記され、ひらがなやカタカナのふりがながついています。ツールは両方の形式を検出する必要があります。
- 会社名(会社名、株式会社)には日本固有のルールが必要です。
APACの言語にまたがるNERについては、/docs/faqをご覧ください。
その他の日本の識別番号フォーマット
運転免許証: 都道府県コードのプレフィックスを持つ12桁。コードは固定 — 東京は10、大阪は62です。地域部分は検証可能です。
パスポート: 日本固有の発行ルールを持つ標準ICAO形式。
健康保険証(健康保険証): 記号+番号。フォーマットは保険者によって異なります。
在留カード(在留カード): 外国人住民向け。フォーマット:2文字、8桁、2文字。法務省が発行します。
日本–EUデータ移転の状況
日本とEUは2019年から相互に十分性認定を受けています。個人情報は追加手続きなしにEUと日本間で流れます。日本は完全なEU十分性認定を持つ非欧州国のうちの一つです。
この取り決めは標準的な個人情報を対象とします。機微な健康情報や刑事記録は、十分性認定の下でも追加的な保護措置が必要です。これらの情報を移転する企業は、追加の保護手順を記録する必要があります。
移転義務については、/security-complianceで確認してください。
日本コンプライアンス チェックリスト
日本の個人情報を取り扱う場合は、ここから始めてください:
- Verhoeffチェックデジットロジックを使用したマイナンバー検出。
- 日本語スクリプトのテキストで学習したモデルによる日本語NER — ラテン文字モデルは不可。
- 漢字、ひらがな、カタカナの名前形式およびふりがなのサポート。
- 地域コード確認を含む運転免許証検出。
- MOJフォーマットロジックによる在留カード検出。
- 保険者のバリアントに対応した健康保険証検出。
- 個人情報を含むAI学習セットのための有効な法的根拠。
- APPI上で匿名加工情報と分類された情報の第三者確認。
- EU–Japan十分性認定の下で移転される機微情報への追加的保護措置。
このガイドで使用されるAPPI用語の定義については、/docs/glossaryをご覧ください。