米国中心のPIIツールの問題
ほとんどのPII検出ツールは、米国のデータ形式のために米国で構築されました。社会保障番号 — AAA-BB-CCCC形式の9桁で、文書化された地域番号、グループ番号、シリアル番号を持つ — が主な設計ターゲットでした。SSN検出に基づいて構築されたツールは、信頼性高くSSNを検出します。また、電話番号、メールアドレス、米国の運転免許証形式も検出するかもしれませんが、他のすべての国で使用されている識別子形式を体系的に見逃します。
GDPRは、米国中心性をコンプライアンスの免除として認識しません。ドイツのSteuer-ID(Steuerliche Identifikationsnummer)は、Bundeszentralamt für Steuernによって発行される11桁の税識別番号で、特定のチェックサムアルゴリズムがチェックサム桁に対して検証されます。これは、SSNがアメリカ人を特定するのと同様に、ドイツの居住者を個人的に特定します。GDPR第4条は、個人データを「特定されたまたは特定可能な自然人に関連するあらゆる情報」と定義しています — Steuer-IDは、あなたのPIIツールが形式を知っているかどうかにかかわらず、GDPRの下で個人データです。
GDPRの罰金は、EU居住者のデータを米国形式のみに設定されたツールを使用して処理したデータシステムにおけるEU国固有のPII露出に対して発行されています。このコンプライアンスのギャップは理論的なものではなく、執行措置を生み出しています。
ヨーロッパの識別子の状況
ヨーロッパの識別子カバレッジギャップの規模:
ドイツ: Steuer-ID(11桁、チェックサム)、Sozialversicherungsnummer(12桁、構造形式)、Reisepass(特定の発行機関コードを持つ10桁のパスポート)
フランス: NIR/Numero de Securite Sociale(性別[1]、生年[2]、生月[2]、県[2]、コミューン[3]、登録番号[3]、チェックキー[2]をエンコードした15桁)、Carte Vitale(15桁のNIRのカード)、SIRET(14桁の事業識別子)、SIREN(9桁)
スウェーデン: Personnummer(10桁、形式YYMMDD-XXXXで、古い番号の最後の2桁が出生県を特定)、Samordningsnummer(非居住者のための調整番号、日+60の類似形式)
ノルウェー: Fodselsnummer(11桁、形式DDMMYYNNNKKで性別が中間の桁に含まれる)、D-nummer(調整番号、日+40)
ブラジル: CPF(Cadastro de Pessoas Fisicas、2つのチェック桁を持つ11桁)、CNPJ(14桁の事業識別子)
インド: Aadhaar(12桁の生体認証ID、Verhoeffアルゴリズムのチェック桁付き)、PAN(所得税用の10文字の英数字)
UAE: Emirates ID(15桁: 784-生年-シーケンス-チェック)
12カ国の従業員の給与データを処理するグローバルHRマネージャーは、12カ国の国民ID形式を一度のパスで検出できるツールが必要です — 12の別々の国固有のツールを設定したり、12の別々の正規表現ライブラリを維持したりすることなく。
285以上のエンティティタイプアーキテクチャ
285以上のエンティティタイプライブラリは、完全なEU加盟国識別子セット、主要なAPAC識別子(Aadhaar、PAN、CPF、CNPJ、Emirates ID、タイ市民ID)、および米国の識別子(SSN、EIN、州別の運転免許証)を単一の検出エンジンでカバーします。このライブラリは、国固有の形式が進化するにつれて維持および更新されます。
出典: