Pengidentifikasi Nasional UE yang Kompleks
Setiap negara UE memiliki pengidentifikasi nasional unik dengan format, checksum, dan konteks spesifik:
- Jerman — Steuer-ID (11 digit): XXX XXX XXX XXX
- Digit ke-10 adalah digit cek modulo 10
- Seringkali dipadukan dengan "Steuernummer" (10 digit berbeda) oleh alat pemindai
- Perancis — NIR (15 digit): 1 + 2 (provinsi) + 2 (tahun) + 2 (bulan) + 2 (kota) + 3 (urutan)
- Kompleks untuk diuraikan tanpa database geografi Perancis
- Swedia — Personnummer (12 digit): YYMMDDNNNNC
- Digit cek Luhn, sering tersembunyi dalam dokumen pindaian AS "hanya 4 terakhir"
- Italia — Codice Fiscale (16 karakter): 6 (nama) + 6 (lahir) + 4 (geografi) + 1 (cek)
- Campuran huruf dan angka, jarang dikenali oleh alat AS
- Spanyol — DNI (8 digit + 1 huruf): X1234567L
- Huruf cek berdasarkan modulo 23, seringkali dihilangkan dalam dokumen OCR
Alat PII AS/Inggris dirancang untuk mengenali:
- Nomor jaminan sosial AS (9 digit)
- Nomor asuransi nasional Inggris (2 huruf + 6 digit + 1 cek)
Mereka menangkap pengenal UE pada tingkat yang jauh lebih rendah:
- Steuer-ID Jerman: 25% akurat (banyak false negative, banyak false positive dengan nomor telepon)
- NIR Perancis: 15% akurat (jarang dikenali sama sekali)
- Personnummer Swedia: 40% akurat (kadang-kadang tertangkap sebagai nomor telepon)
88% alat PII yang dirancang AS (Presidio, Microsoft, Google) melaporkan tingkat akurasi <50% untuk pengidentifikasi UE nasional.
Kesenjangan Deteksi Spesifik
Contoh kesenjangan:
-
Steuer-ID Jerman: Format "12 345 678 901" dalam dokumen
- Alat AS: tidak mengenali (tidak menyerupai SSN AS)
- Alat UE: mengenali dengan algoritma checksum modulo 10, flag sebagai PII
-
NIR Perancis: "1 23 45 67 890 123 45" dalam dokumen medis Perancis
- Alat AS: mungkin mengenali sebagai "nomor acak" tetapi tidak mengenali sebagai pengidentifikasi nasional
- Alat UE: mengenali struktur 15 digit, flag sebagai PII GDPR
-
Personnummer Swedia: "880515-1234" dalam dokumen pindaian polis asuransi Swedia
- Alat AS: mungkin mengenali sebagai format XX-XXXX (tidak jelas)
- Alat UE: mengenali format Swedia dengan checksum Luhn, flag sebagai PII GDPR
Implementasi Deteksi Pengenal UE
Organisasi dapat mengatasi kesenjangan dengan:
- Validasi checksum per negara — untuk Jerman (modulo 10), Perancis (modulo 97), Swedia (Luhn), Italia (modulo 26)
- Pengenal khusus bahasa — untuk Perancis, pencarian istilah "NIR" atau "numéro de sécurité sociale"; untuk Jerman, "Steuer-ID"
- Pencocokkan database geografis — untuk NIR Perancis, validasi kode wilayah melawan database departemen Perancis
- Pelatihan model NER lokal — gunakan spaCy model Perancis/Jerman untuk meningkatkan deteksi konteks
Contoh pengayaan Steuer-ID Jerman:
- Regex dasar: /\d{11}/ (terlalu luas, cocok dengan nomor apa pun 11 digit)
- Validasi checksum: digit ke-10 = checksum modulo 10 dari 9 digit pertama
- Konteks Jerman: "Steuer-ID:", "Steuernummer:" sering mendahului pengenal
- Pengayaan: /Steuer-ID[:\s]+([0-9\s]+)/ dengan validasi checksum
Kepatuhan Regulasi GDPR
Deteksi pengenal UE lokal memenuhi persyaratan GDPR:
- Artikel 4(1) — organisasi harus mengidentifikasi apa yang merupakan "data peribadi" (pengidentifikasi nasional adalah)
- Pasal 5(1)(e) — data harus diamankan dengan integritas (deteksi yang tepat memastikan tidak ada pengidentifikasi yang terlewatkan)
- Pasal 34 — jika data dicuri, organisasi harus dapat menunjukkan upaya yang masuk akal untuk mengidentifikasi pelanggaran
Organisasi yang beroperasi di UE harus menggunakan alat PII yang mengenali pengidentifikasi lokal untuk setiap yurisdiksi.