Kembali ke BlogGDPR & Pematuhan

Kesenjangan Pengenal UE: Steuer-ID Jerman...

Pengidentifikasi nasional UE (Steuer-ID Jerman 11 digit, NIR Perancis 15 digit, Personnummer Swedia 12 digit) dilewatkan oleh 88% alat PII yang...

April 20, 20268 min baca
EU identifier gapSteuer-ID detectionFrench NIR anonymizationSwedish PersonnummerNordic identifier GDPR

Pengidentifikasi Nasional UE yang Kompleks

Setiap negara UE memiliki pengidentifikasi nasional unik dengan format, checksum, dan konteks spesifik:

  1. Jerman — Steuer-ID (11 digit): XXX XXX XXX XXX
    • Digit ke-10 adalah digit cek modulo 10
    • Seringkali dipadukan dengan "Steuernummer" (10 digit berbeda) oleh alat pemindai
  2. Perancis — NIR (15 digit): 1 + 2 (provinsi) + 2 (tahun) + 2 (bulan) + 2 (kota) + 3 (urutan)
    • Kompleks untuk diuraikan tanpa database geografi Perancis
  3. Swedia — Personnummer (12 digit): YYMMDDNNNNC
    • Digit cek Luhn, sering tersembunyi dalam dokumen pindaian AS "hanya 4 terakhir"
  4. Italia — Codice Fiscale (16 karakter): 6 (nama) + 6 (lahir) + 4 (geografi) + 1 (cek)
    • Campuran huruf dan angka, jarang dikenali oleh alat AS
  5. Spanyol — DNI (8 digit + 1 huruf): X1234567L
    • Huruf cek berdasarkan modulo 23, seringkali dihilangkan dalam dokumen OCR

Alat PII AS/Inggris dirancang untuk mengenali:

  • Nomor jaminan sosial AS (9 digit)
  • Nomor asuransi nasional Inggris (2 huruf + 6 digit + 1 cek)

Mereka menangkap pengenal UE pada tingkat yang jauh lebih rendah:

  • Steuer-ID Jerman: 25% akurat (banyak false negative, banyak false positive dengan nomor telepon)
  • NIR Perancis: 15% akurat (jarang dikenali sama sekali)
  • Personnummer Swedia: 40% akurat (kadang-kadang tertangkap sebagai nomor telepon)

88% alat PII yang dirancang AS (Presidio, Microsoft, Google) melaporkan tingkat akurasi <50% untuk pengidentifikasi UE nasional.

Kesenjangan Deteksi Spesifik

Contoh kesenjangan:

  1. Steuer-ID Jerman: Format "12 345 678 901" dalam dokumen

    • Alat AS: tidak mengenali (tidak menyerupai SSN AS)
    • Alat UE: mengenali dengan algoritma checksum modulo 10, flag sebagai PII
  2. NIR Perancis: "1 23 45 67 890 123 45" dalam dokumen medis Perancis

    • Alat AS: mungkin mengenali sebagai "nomor acak" tetapi tidak mengenali sebagai pengidentifikasi nasional
    • Alat UE: mengenali struktur 15 digit, flag sebagai PII GDPR
  3. Personnummer Swedia: "880515-1234" dalam dokumen pindaian polis asuransi Swedia

    • Alat AS: mungkin mengenali sebagai format XX-XXXX (tidak jelas)
    • Alat UE: mengenali format Swedia dengan checksum Luhn, flag sebagai PII GDPR

Implementasi Deteksi Pengenal UE

Organisasi dapat mengatasi kesenjangan dengan:

  1. Validasi checksum per negara — untuk Jerman (modulo 10), Perancis (modulo 97), Swedia (Luhn), Italia (modulo 26)
  2. Pengenal khusus bahasa — untuk Perancis, pencarian istilah "NIR" atau "numéro de sécurité sociale"; untuk Jerman, "Steuer-ID"
  3. Pencocokkan database geografis — untuk NIR Perancis, validasi kode wilayah melawan database departemen Perancis
  4. Pelatihan model NER lokal — gunakan spaCy model Perancis/Jerman untuk meningkatkan deteksi konteks

Contoh pengayaan Steuer-ID Jerman:

  • Regex dasar: /\d{11}/ (terlalu luas, cocok dengan nomor apa pun 11 digit)
  • Validasi checksum: digit ke-10 = checksum modulo 10 dari 9 digit pertama
  • Konteks Jerman: "Steuer-ID:", "Steuernummer:" sering mendahului pengenal
  • Pengayaan: /Steuer-ID[:\s]+([0-9\s]+)/ dengan validasi checksum

Kepatuhan Regulasi GDPR

Deteksi pengenal UE lokal memenuhi persyaratan GDPR:

  • Artikel 4(1) — organisasi harus mengidentifikasi apa yang merupakan "data peribadi" (pengidentifikasi nasional adalah)
  • Pasal 5(1)(e) — data harus diamankan dengan integritas (deteksi yang tepat memastikan tidak ada pengidentifikasi yang terlewatkan)
  • Pasal 34 — jika data dicuri, organisasi harus dapat menunjukkan upaya yang masuk akal untuk mengidentifikasi pelanggaran

Organisasi yang beroperasi di UE harus menggunakan alat PII yang mengenali pengidentifikasi lokal untuk setiap yurisdiksi.

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.