Kembali ke BlogTeknikal

Masalah Dokumen Multibahasa: Mengapa Alat PII...

72% perusahaan EU memproses dokumen dalam 3+ bahasa secara bersamaan. Dokumen multibahasa menyebabkan 45% tingkat pmiss PII lebih tinggi dalam alat...

March 26, 20267 min baca
mixed-language PII detectionSwiss GDPR compliancemultilingual document processingXLM-RoBERTaDACH data protection

Dokumen Yang Menentang Alat Monolingual

Kontrak ketenagakerjaan perusahaan farmasi Swis tidak ditulis dalam satu bahasa. Swis memiliki empat bahasa resmi. Dokumen yang dihasilkan oleh organisasi Swis secara rutin mencampur Jerman untuk badan kontrak utama, Perancis untuk klausul regulasi tertentu, dan Inggris untuk bagian penetapan standar internasional—kadang-kadang dalam paragraf tunggal.

Menit papan perusahaan Belgia berisi pelaporan Belanda dengan resolusi formal Perancis dan bagian ringkasan Inggris untuk investor internasional. Perjanjian pemrosesan data perusahaan multinasional memiliki spesifikasi teknis Inggris, klausul hak subjek data Jerman, dan informasi kontak DPA Perancis.

Ini bukan dokumen yang tidak biasa. Mereka adalah output standar organisasi multinasional yang beroperasi di pasar multibahasa. Dan alat deteksi PII monolingual gagal pada mereka secara sistematis.

Tingkat Miss 45% Lebih Tinggi

Penelitian membandingkan pendekatan NER monolingual dan multibahasa pada dokumen multibahasa menemukan bahwa dokumen multibahasa menyebabkan 45% tingkat miss PII lebih tinggi dalam alat NER monolingual dibandingkan dengan kinerja mereka pada dokumen murni bahasa tunggal.

Sumber kesenjangan bersifat arsitektur: model NER monolingual yang dilatih pada teks Jerman belajar pola nama Jerman, konvensi nama organisasi Jerman, dan struktur alamat Jerman. Ketika model itu menemukan bagian berbahasa Perancis dalam dokumen yang didominasi Jerman, itu beroperasi di luar pelatihan...

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.