グローバルPII:SSN、CPF、Aadhaarとそれ以外
米国中心のPIIツール問題
ほとんどのPIIツールは米国で開発されました。米国のデータ形式を対象としています。社会保障番号(SSN)はAAA-BB-CCCC形式の9桁です。エリア、グループ、シリアルの各セグメントは文書化されたルールに従います。米国向けツールはSSNを正確に検出します。米国の電話番号、メールアドレス、運転免許証も検出します。しかし、米国以外で使用される国民IDはすべて見逃します。
GDPRは米国のみへの対応を免除の根拠とは認めません。ドイツのSteuer-IDを例に取りましょう。これは11桁の税務識別番号です。Bundeszentralamt für Steuernが発行します。最後の桁はチェックサムです。SSNが米国人を識別するように、Steuer-IDはドイツ居住者を識別します。GDPR第4条は「識別された又は識別可能な自然人に関するあらゆる情報」を対象とします。Steuer-IDはこの定義に該当します。これは個人データです。あなたのツールがこの形式を認識するかどうかに関係なく、そのことは変わりません。
EUに特有のPII漏洩について、米国のみのツールを使用するシステムにGDPRの制裁金が課されています。コンプライアンスのギャップは現実のものです。執行措置が実施されています。詳細はGDPRコンプライアンスガイドをご覧ください。
欧州の識別子の概観
対応の欠如は大きな問題です。以下は国別の概要です。
ドイツ: Steuer-ID — 11桁、チェックサム検証済み。Sozialversicherungsnummer — 12フィールド、構造化。Reisepass — 当局コード付き10文字。
フランス: NIRは国民の社会保障IDです。15桁あります。性別、生年、生月、県、市区町村、チェックキーを符号化します。SIRETは14桁。SIRENは9桁です。
スウェーデン: PersonnummerはYYMMDD-XXXX形式を使用します。Samordningsnummerは非居住者をカバーします。日の値は60ずらされます。
ノルウェー: FødselsnummerはDDMMYYNNNKK形式の11値です。性別は中間グループに符号化されます。D-nummerは日の値を40ずらします。
ブラジル: CPF(Cadastro de Pessoas Físicas)は2つのチェック値を持つ11桁です。CNPJは14桁の法人IDです。
インド: Aadhaarは12桁の生体認証IDです。Verhoeffチェックを使用します。PANは数字と文字を含む10桁の税務IDです。
UAE: Emirates IDは784-生年-シーケンス-チェック形式の15桁です。
12カ国をカバーするグローバルなHRチームには1つのツールが必要です。12の国民ID形式すべてを1回の処理で対応しなければなりません。国ごとに別々の正規表現ライブラリを維持することは現実的ではありません。
285以上のエンティティタイプアーキテクチャ
285以上のエンティティタイプライブラリは、EU加盟国のすべての形式をカバーします。主要なAPAC識別子もカバーします。Aadhaar、PAN、CPF、CNPJ、Emirates ID、タイ国民IDなどが含まれます。米国形式 — SSN、EIN、州別運転免許証 — も含まれます。1つのエンジンがすべてを処理します。ライブラリは形式の変更に合わせて更新されます。
これが多くのツールが放置しているギャップです。エンティティリファレンスでカバー範囲を確認できます。ボリューム別のAPI価格は料金ページをご覧ください。