Tantangan NER Multibahasa
Model Named Entity Recognition (NER) yang dilatih dalam bahasa Inggris mencapai hasil mengesankan—skor F1 85-92% pada tolok ukur standar. Terapkan model yang sama ke Arab atau Cina? Akurasi sering turun ke 50-70%.
Untuk deteksi PII, kesenjangan ini kritis. Tingkat deteksi 70% berarti 30% data sensitif tidak terlindungi.
Mengapa Model Inggris Gagal
1. Batas Kata
Inggris: Kata dipisahkan oleh spasi.
"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]
Cina: Tidak ada batas kata sama sekali.
"张伟住在北京"
→ Perlu segmentasi dulu: ["张伟", "住在", "北京"]
Arab: Kata terhubung, dan vokal pendek tidak ditulis.
"محمد يعيش في دبي"
→ Skrip terhubung, kanan-ke-kiri, vokal dihilangkan
Aturan tokenisasi Inggris tidak berlaku sama sekali.
2. Kompleksitas Morfologi
Morfologi Inggris: Relatif sederhana
run → runs, running, ran
Morfologi Arab: Sangat kompleks (sistem root-pola)
كتب (k-t-b, akar "menulis")
→ كاتب (penulis), كتاب (buku), مكتبة (perpustakaan), يكتب (dia menulis)
Model NER harus memahami sistem derivasi ini.
3. Konvensi Nama
Nama Inggris: Pertama Belakang
John Smith, Mary Johnson
Nama Arab: Komponen ganda
محمد بن عبد الله بن عبد المطلب
(Muhammad anak Abdullah anak Abdul-Muttalib)
Nama Cina: Nama keluarga terlebih dahulu, sering 2-3 karakter total
张伟 (Zh...