Dokumen Multibahasa PII: Tantangan Wilayah DACH
Wilayah DACH (Jerman, Austria, Swiss) menghadirkan tantangan unik untuk deteksi PII: dokumen bisnis sering ditulis dalam campuran bahasa Jerman, Inggris, dan bahasa regional lainnya.
Mengapa Dokumen Bisnis DACH Multibahasa
Dalam lingkungan bisnis DACH tipikal:
- Email pemasaran: Jerman + Inggris (untuk audiens internasional)
- Kontrak internasional: Jerman dengan pasal-pasal Inggris
- Laporan teknis: Jerman dengan terminologi teknis Inggris
- Korespondensi HR: Jerman dengan nama karyawan internasional
Alat PII yang hanya menganalisis dalam satu bahasa akan melewatkan entitas dalam bahasa lainnya.
PII Spesifik DACH
Identifier Jerman:
- Steuer-ID: 11 digit, dimulai dengan 1-9, tidak ada 0 sebagai digit kedua
- Steuernummer: Format bervariasi per negara bagian (10-11 digit)
- Krankenkassennummer: 9 karakter (huruf + 8 digit)
- IBAN DE: DE + 2 digit kontrol + 8 digit BLZ + 10 digit nomor rekening
Identifier Austria:
- Sozialversicherungsnummer: 10 digit
- Steuernummer Austria: 9 digit
- IBAN AT: AT + 2 digit kontrol + 16 digit
Identifier Swiss:
- AHV-Nummer: 756.XXXX.XXXX.XX (13 digit)
- IBAN CH: CH + 2 digit kontrol + 5 digit bank + 12 digit
- UID (nomor perusahaan): CHE-XXX.XXX.XXX
Tantangan Teknis: Deteksi Lintas Bahasa
Mesin NLP umumnya dioptimalkan untuk satu bahasa pada satu waktu. Untuk dokumen multibahasa, diperlukan:
- Identifikasi bahasa: Tentukan bahasa setiap segmen teks
- Model paralel: Jalankan model Jerman dan Inggris secara bersamaan
- Penggabungan deduplication: Gabungkan hasil tanpa menghitung entitas yang sama dua kali
- Konteks lintas bahasa: Nama dalam satu bahasa mungkin dikontekstualisasikan oleh teks dalam bahasa lain
Validasi Format yang Benar
Setiap identifier DACH memiliki aturan validasi:
- Steuer-ID menggunakan algoritma validasi khusus (bukan hanya cek panjang)
- IBAN menggunakan validasi mod-97
- AHV-Nummer menggunakan checksum EAN-13
Tanpa validasi checksum, alat akan menghasilkan false positive yang tinggi pada string numerik.
anonym.legal mengimplementasikan semua validator checksum ini untuk memastikan presisi tinggi pada dokumen DACH.
Sumber:
- Bundeszentralamt für Steuern: Steuer-Identifikationsnummer
- SWIFT: IBAN Registry