Kembali ke BlogGDPR & Pematuhan

Kesenjangan Pengenal Global: Mengapa SSN, CPF...

Pengenal nasional (SSN AS, CPF Brasil, Aadhaar India) tidak dapat dideteksi oleh alat PII generik.

April 19, 20268 min baca
global PII coverageEU identifier detectionSteuer-ID French NIRBrazilian CPF285+ entity types GDPR

Kesenjangan Pengenal Nasional Global

Organisasi dengan karyawan global dan pelanggan memproses identifikasi nasional:

  • AS: SSN (XXX-XX-XXXX, 9 digit)
  • Brasil: CPF (XXX.XXX.XXX-XX, 11 digit + digit cek)
  • India: Aadhaar (12 digit + biometrik, 1.4 miliar masalah)
  • Jepang: My Number (12 digit)
  • Rusia: SNILS (11 digit)
  • Cina: Nomor ID warga negara (18 digit dengan digit cek)
  • UE: NIR (Perancis), Steuer-ID (Jerman), etc.

Alat PII generik (seperti Presidio) dirancang untuk negara dominan AS/UE dan menangkap:

  • SSN AS: 99% akurat
  • Nomor telepon UE: 95% akurat
  • Nomor kartu kredit global: 98% akurat

Tetapi untuk pengidentifikasi lokal negara berkembang:

  • CPF Brasil: 40% akurat (banyak false negative)
  • Aadhaar India: 35% akurat (format variabel, sering dihapus dari dokumen)
  • My Number Jepang: 60% akurat (sering tidak terlihat jelas dalam dokumen pindaian)

91% organisasi multinasional melaporkan bahwa alat PII mereka tidak mendeteksi 50% dari pengidentifikasi lokal di negara non-AS/UE.

Kesenjangan Pengenal Spesifik

Contoh kesenjangan pengenal:

  1. Aadhaar India — 12 digit dengan checksum yang kompleks, biasanya ditampilkan sebagai "XXXX-XXXX-1234" (hanya 4 digit terakhir), sering disangkal dengan digit lain karena checksum tidak diimplementasikan
  2. CPF Brasil — algoritma checksum 2-digit yang kompleks (modulo 11), alat generik tidak memvalidasi checksum
  3. Nomor ID Cina — 18 digit dengan digit cek, sering dipalsukan; alat harus memvalidasi berdasarkan daerah dan tanggal lahir
  4. My Number Jepang — 12 digit, sering dipadukan dengan identifikasi pajak 10 digit; alat harus membedakan keduanya

Tanpa deteksi spesifik ini, data sensitif lolos melalui saringan PII.

Implementasi Deteksi PII Lokal

Organisasi dapat mengatasi kesenjangan dengan:

  1. Pengenal khusus negara — tambahkan regex + validasi checksum untuk setiap negara
  2. Pelatihan bahasa — menggunakan model spaCy untuk bahasa lokal untuk konteks (misalnya, dalam bahasa Cina, "号码" (nomor) sering mendahului pengenal nasional)
  3. Auditor pihak ketiga — verifikasi bahwa alat PII menangkap ≥90% pengidentifikasi lokal di setiap negara target
  4. Dataset uji lokal — buat dataset uji dengan 100 contoh pengenal asli + palsu, verifikasi alat

Contoh pengayaan CPF Brasil:

  • Regex dasar: /\d{3}.\d{3}.\d{3}-\d{2}/
  • Validasi checksum: modulo 11 pada 9 digit pertama = digit ke-10; modulo 11 pada 10 digit pertama = digit ke-11
  • Konteks Portugis: "CPF:" atau "cadastro de pessoa física" sering mendahului pengenal

Kepatuhan Regulasi Global

Deteksi PII lokal memenuhi persyaratan perlindungan data lokal:

  • Brasil (LGPD): CPF harus dihapus atau dienkripsi
  • India (DPDPA): Aadhaar harus dilindungi khusus
  • Cina: Nomor ID warga negara memerlukan persetujuan eksplisit untuk pemrosesan
  • UE (GDPR): NIR lokal memerlukan keamanan khusus per yurisdiksi

Pendekatan deteksi lokal memastikan kepatuhan di seluruh dunia.

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.