Dokumen Yang Menentang Alat Monolingual
Kontrak ketenagakerjaan perusahaan farmasi Swis tidak ditulis dalam satu bahasa. Swis memiliki empat bahasa resmi. Dokumen yang dihasilkan oleh organisasi Swis secara rutin mencampur Jerman untuk badan kontrak utama, Perancis untuk klausul regulasi tertentu, dan Inggris untuk bagian penetapan standar internasional—kadang-kadang dalam paragraf tunggal.
Menit papan perusahaan Belgia berisi pelaporan Belanda dengan resolusi formal Perancis dan bagian ringkasan Inggris untuk investor internasional. Perjanjian pemrosesan data perusahaan multinasional memiliki spesifikasi teknis Inggris, klausul hak subjek data Jerman, dan informasi kontak DPA Perancis.
Ini bukan dokumen yang tidak biasa. Mereka adalah output standar organisasi multinasional yang beroperasi di pasar multibahasa. Dan alat deteksi PII monolingual gagal pada mereka secara sistematis.
Tingkat Miss 45% Lebih Tinggi
Penelitian membandingkan pendekatan NER monolingual dan multibahasa pada dokumen multibahasa menemukan bahwa dokumen multibahasa menyebabkan 45% tingkat miss PII lebih tinggi dalam alat NER monolingual dibandingkan dengan kinerja mereka pada dokumen murni bahasa tunggal.
Sumber kesenjangan bersifat arsitektur: model NER monolingual yang dilatih pada teks Jerman belajar pola nama Jerman, konvensi nama organisasi Jerman, dan struktur alamat Jerman. Ketika model itu menemukan bagian berbahasa Perancis dalam dokumen yang didominasi Jerman, itu beroperasi di luar pelatihan...