Kesenjangan Pengenal Nasional Global
Organisasi dengan karyawan global dan pelanggan memproses identifikasi nasional:
- AS: SSN (XXX-XX-XXXX, 9 digit)
- Brasil: CPF (XXX.XXX.XXX-XX, 11 digit + digit cek)
- India: Aadhaar (12 digit + biometrik, 1.4 miliar masalah)
- Jepang: My Number (12 digit)
- Rusia: SNILS (11 digit)
- Cina: Nomor ID warga negara (18 digit dengan digit cek)
- UE: NIR (Perancis), Steuer-ID (Jerman), etc.
Alat PII generik (seperti Presidio) dirancang untuk negara dominan AS/UE dan menangkap:
- SSN AS: 99% akurat
- Nomor telepon UE: 95% akurat
- Nomor kartu kredit global: 98% akurat
Tetapi untuk pengidentifikasi lokal negara berkembang:
- CPF Brasil: 40% akurat (banyak false negative)
- Aadhaar India: 35% akurat (format variabel, sering dihapus dari dokumen)
- My Number Jepang: 60% akurat (sering tidak terlihat jelas dalam dokumen pindaian)
91% organisasi multinasional melaporkan bahwa alat PII mereka tidak mendeteksi 50% dari pengidentifikasi lokal di negara non-AS/UE.
Kesenjangan Pengenal Spesifik
Contoh kesenjangan pengenal:
- Aadhaar India — 12 digit dengan checksum yang kompleks, biasanya ditampilkan sebagai "XXXX-XXXX-1234" (hanya 4 digit terakhir), sering disangkal dengan digit lain karena checksum tidak diimplementasikan
- CPF Brasil — algoritma checksum 2-digit yang kompleks (modulo 11), alat generik tidak memvalidasi checksum
- Nomor ID Cina — 18 digit dengan digit cek, sering dipalsukan; alat harus memvalidasi berdasarkan daerah dan tanggal lahir
- My Number Jepang — 12 digit, sering dipadukan dengan identifikasi pajak 10 digit; alat harus membedakan keduanya
Tanpa deteksi spesifik ini, data sensitif lolos melalui saringan PII.
Implementasi Deteksi PII Lokal
Organisasi dapat mengatasi kesenjangan dengan:
- Pengenal khusus negara — tambahkan regex + validasi checksum untuk setiap negara
- Pelatihan bahasa — menggunakan model spaCy untuk bahasa lokal untuk konteks (misalnya, dalam bahasa Cina, "号码" (nomor) sering mendahului pengenal nasional)
- Auditor pihak ketiga — verifikasi bahwa alat PII menangkap ≥90% pengidentifikasi lokal di setiap negara target
- Dataset uji lokal — buat dataset uji dengan 100 contoh pengenal asli + palsu, verifikasi alat
Contoh pengayaan CPF Brasil:
- Regex dasar: /\d{3}.\d{3}.\d{3}-\d{2}/
- Validasi checksum: modulo 11 pada 9 digit pertama = digit ke-10; modulo 11 pada 10 digit pertama = digit ke-11
- Konteks Portugis: "CPF:" atau "cadastro de pessoa física" sering mendahului pengenal
Kepatuhan Regulasi Global
Deteksi PII lokal memenuhi persyaratan perlindungan data lokal:
- Brasil (LGPD): CPF harus dihapus atau dienkripsi
- India (DPDPA): Aadhaar harus dilindungi khusus
- Cina: Nomor ID warga negara memerlukan persetujuan eksplisit untuk pemrosesan
- UE (GDPR): NIR lokal memerlukan keamanan khusus per yurisdiksi
Pendekatan deteksi lokal memastikan kepatuhan di seluruh dunia.