Alat PII Bahasa Inggeris Sahaja: Jurang GDPR
GDPR Tidak Mengutamakan Mana-Mana Bahasa
GDPR merangkumi data peribadi dalam mana-mana bahasa. Jerman, Perancis, Poland, Sweden — semua dilindungi sama rata. Steuer-ID yang terlepas menimbulkan risiko undang-undang yang sama seperti Nombor Keselamatan Sosial Amerika yang terlepas. Undang-undang tidak mengambil kira bahasa.
Kebanyakan alat pengesan PII mengambil kira bahasa.
Alat komersial dan sumber terbuka terkemuka dibina untuk teks bahasa Inggeris. Pengesan entiti mereka mencerminkan ini. Mereka meliputi Nombor Keselamatan Sosial Amerika, lesen memandu Amerika, dan format telefon NANP dengan baik. Pengesan untuk ID kebangsaan bukan bahasa Inggeris adalah kurang tepat. Ia kurang dipelihara. Ia lebih kerap terlepas pengecam sebenar.
Bagi firma merentasi negara anggota EU, ini menimbulkan jurang liputan. Alat itu melaporkan pengesanan selesai. Tetapi pengecam bukan bahasa Inggeris kekal dalam data. Ini selalunya merupakan pengecam dengan pendedahan GDPR terbesar di negara tertentu.
Pihak berkuasa data menyedari ini. Juruaudit mencarinya. Alat boleh berfungsi baik pada rekod bahasa Inggeris. Tetapi jika ia gagal pada rekod bahasa Jerman atau Perancis, ia tidak patuh. Laporan yang bersih tidak mengubah itu.
ID Kebangsaan Berbeza dalam Struktur
Jurang antara alat berpusatkan bahasa Inggeris dan alat berbilang bahasa bukan tentang menambah lebih banyak corak regex. Pengecam kebangsaan EU sangat berbeza antara satu sama lain. Mereka memerlukan logik khusus negara untuk dikesan dengan betul.
Steuer-Identifikationsnummer Jerman (Steuer-ID): 11 digit. Ia menggunakan checksum berdasarkan varian formula Luhn. Regex SSN generik tidak akan memadankannya. Regex untuk mana-mana nombor 11 digit menghasilkan terlalu banyak positif palsu dalam dokumen Jerman.
NIR Perancis (Numero d'inscription au repertoire): 15 digit. Format itu mengekod jantina, tahun lahir, bulan lahir, dan jabatan lahir. Ia juga termasuk susunan lahir dan kunci kawalan 2 digit. Kunci kawalan mesti disahkan untuk pengesanan yang betul.
Personnummer Sweden: 10 digit dengan digit semak Luhn. Orang yang lahir sebelum 1990 menggunakan pemisah + dan bukannya -. Itu mengubah format yang mesti dikesan.
PESEL Poland: 11 digit. Ia mengekod tarikh lahir, jantina, dan digit semak berdasarkan jumlah berwajaran. Pengesanan yang betul memerlukan padanan format dan pengesahan checksum.
Ini bukan varian corak biasa. Setiap satu mempunyai panjang yang berbeza. Setiap satu menggunakan kaedah semak yang berbeza. Setiap satu mengekod data dalam skim kedudukan yang berbeza. Model NER terlatih bahasa Inggeris yang melihat NIR Perancis tidak akan mengenalinya sebagai pengecam kebangsaan. Ia akan mengabaikannya atau mengklasifikasikannya dengan salah.
Risiko Pematuhan yang Praktikal
Bayangkan pegawai pematuhan di BPO Eropah. Mereka memproses data dari Jerman, Perancis, Poland, dan Belanda serentak. Alat mereka melaporkan penganoniman PII yang berjaya.
Tetapi hasilnya tidak lengkap. Steuer-ID dalam rekod Jerman kekal. Nombor NIR dalam rekod Perancis kekal. Nombor PESEL dalam rekod Poland kekal. Pengesan alat untuk format ini tidak ada atau terlalu tidak tepat.
Kemudian, dataset itu pergi ke analitik atau ke rakan penyelidikan. Data masih mengandungi pengecam kebangsaan yang boleh dikenal semula. Isu GDPR tidak muncul dalam log output alat. Ia muncul apabila permintaan akses subjek data tiba. Ia mungkin muncul semasa audit pihak berkuasa data. Ia mungkin muncul selepas kebocoran data.
Penyelidikan yang membandingkan pendekatan hibrid berbilang bahasa dengan alat berpusatkan bahasa Inggeris mendapati keputusan yang jelas. Kaedah hibrid mencapai skor F1 antara 0.60 hingga 0.83 merentasi lokasi Eropah. Alat bahasa Inggeris sahaja mendapat skor hampir sifar untuk format ID kebangsaan bukan bahasa Inggeris.
Lihat gambaran pematuhan GDPR kami untuk cara jurang ini dipetakan kepada kewajipan GDPR.
Apa yang Diperlukan untuk Liputan Penuh
Pengesanan PII berbilang bahasa yang benar untuk pematuhan GDPR EU memerlukan tiga lapisan.
Model spaCy asli bahasa menyediakan pemahaman semantik dalam bahasa teks. Model yang dilatih pada teks bahasa Jerman tahu bahawa "Muller" adalah nama keluarga Jerman yang biasa. Model wujud untuk 25 bahasa EU sumber tinggi.
Model NLP Stanza meluaskan liputan kepada bahasa yang tidak ada dalam spaCy. Ini menambah jangkauan untuk lebih banyak komuniti bahasa EU.
Model transformer merentas bahasa (XLM-RoBERTa) mengendalikan kes merentas bahasa. Nama dalam ayat Perancis dikenali sebagai nama orang. Ini berfungsi walaupun enjin tidak dilatih pada nama khusus itu.
Regex dengan pengesahan khusus negara merangkumi pengecam kebangsaan berstruktur. Steuer-ID, NIR, PESEL, dan Personnummer masing-masing memerlukan logik checksum mereka sendiri. Ini mengurangkan positif palsu. Urutan digit yang gagal peraturan pengesahan negara ditapis keluar.
Jurang ini adalah struktural. Menambah senarai kata atau lebih banyak corak regex hanya memberikan penambahbaikan kecil. Membina liputan pengecam EU dari awal adalah satu-satunya pendekatan yang boleh dipercayai.
Semak Alat Anda Sekarang
Tanya vendor anda untuk skor F1 pada rekod bahasa Jerman, Perancis, Poland, dan Belanda. "Menyokong pelbagai bahasa" selalunya bermakna alat menggunakan terjemahan dahulu. Itu bukan pengimbasan asli. Pematuhan GDPR memerlukan pengimbasan asli.
Uji dengan sampel ID kebangsaan sebenar. Bina set ujian pendek dengan 10 contoh setiap jenis ID dalam operasi anda. Steuer-ID, NIR, PESEL, Personnummer. Semak kadar pengesanan. Ini lebih pantas daripada ujian F1 penuh dan menunjukkan jurang dengan cepat.
Lihat halaman keselamatan dan pematuhan kami untuk cara anonym.legal menangani keperluan ini. Untuk definisi jenis entiti, lawati rujukan entiti.