Kembali ke BlogTeknikal

Multi-Language NER: Mengapa Model Terlatih Inggris...

Model NER Inggris mencapai akurasi 85-92%. Arab dan China? Sering 50-70%. Pelajari tantangan teknis dan cara membangun deteksi PII yang benar-benar...

February 26, 20268 min baca
NERmultilingualArabic NLPChinese NLPPII detection

Tantangan NER Multibahasa

Model Named Entity Recognition (NER) yang dilatih dalam bahasa Inggris mencapai hasil mengesankan—skor F1 85-92% pada tolok ukur standar. Terapkan model yang sama ke Arab atau Cina? Akurasi sering turun ke 50-70%.

Untuk deteksi PII, kesenjangan ini kritis. Tingkat deteksi 70% berarti 30% data sensitif tidak terlindungi.

Mengapa Model Inggris Gagal

1. Batas Kata

Inggris: Kata dipisahkan oleh spasi.

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

Cina: Tidak ada batas kata sama sekali.

"张伟住在北京"
→ Perlu segmentasi dulu: ["张伟", "住在", "北京"]

Arab: Kata terhubung, dan vokal pendek tidak ditulis.

"محمد يعيش في دبي"
→ Skrip terhubung, kanan-ke-kiri, vokal dihilangkan

Aturan tokenisasi Inggris tidak berlaku sama sekali.

2. Kompleksitas Morfologi

Morfologi Inggris: Relatif sederhana

run → runs, running, ran

Morfologi Arab: Sangat kompleks (sistem root-pola)

كتب (k-t-b, akar "menulis")
→ كاتب (penulis), كتاب (buku), مكتبة (perpustakaan), يكتب (dia menulis)

Model NER harus memahami sistem derivasi ini.

3. Konvensi Nama

Nama Inggris: Pertama Belakang

John Smith, Mary Johnson

Nama Arab: Komponen ganda

محمد بن عبد الله بن عبد المطلب
(Muhammad anak Abdullah anak Abdul-Muttalib)

Nama Cina: Nama keluarga terlebih dahulu, sering 2-3 karakter total

张伟 (Zh...

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.