Jurang Pematuhan RTL
GDPR tidak berakhir di Bosphorus. Syarikat EU yang menggunakan alat skrip Latin mempunyai titik buta. Ia nyata dan sebahagian besarnya diabaikan.
Masalahnya bukan sekadar arah teks. Skrip kanan-ke-kiri memerlukan tokenisasi yang berbeza. Ia memerlukan segmentasi yang berbeza. Sempadan entiti berfungsi secara berbeza berbanding teks LTR. Sistem NER yang dilatih dalam bahasa Inggeris menerapkan peraturan LTR. Peraturan tersebut rosak pada teks RTL. Ia memberikan sempadan entiti yang salah.
Morfologi Arab menyukarkan lagi keadaan. Bahasa ini menggunakan akar kata. Satu akar memberikan berpuluh-puluh bentuk perkataan. Nama seperti Mohammed boleh muncul sebagai "Al-Mohammed," "bin Mohammed," atau "Mohammed al-Rashid." Corak regex yang dibina untuk nama-nama Barat terlepas bentuk-bentuk ini. Model yang dilatih dalam bahasa Inggeris juga terlepasnya.
GDPR tidak menganggap bahasa sebagai sempadan pematuhan. Firma EU yang memproses surat pelanggan daripada klien MENA mesti memenuhi peraturan yang sama seperti untuk surat Perancis. Terlepas PII dalam teks RTL adalah kegagalan undang-undang di bawah Artikel 32 GDPR.
Kes Penggunaan KYC
Sebuah syarikat fintech Dubai yang memproses dokumen KYC untuk klien EU menunjukkan ini dengan jelas.
Fail KYC untuk klien Arab mengandungi nama dalam skrip RTL, ID Emirates UAE, dan alamat RTL. Ini duduk bersebelahan dengan teks perniagaan bahasa Inggeris.
Format ID Emirates ialah 784-XXXX-XXXXXXX-X. Kod negara 784. Tahun lahir. Tujuh digit. Digit semak. Alat PII Barat tanpa definisi entiti UAE tidak dapat mencari format ini. Medan nama melalui NER skrip Latin. Segmentasinya salah. PII menjadi tidak kelihatan dalam aliran kerja.
Bagi firma dengan tanggungjawab GDPR atas data ini, jurang tersebut mewujudkan risiko undang-undang sebenar. Artikel 32 GDPR memerlukan langkah teknikal yang sesuai. Alat yang terlepas pengecam dalam 22% bahasa dunia bukanlah langkah yang sesuai.
Dokumen Ibrani dan Pelbagai Bahasa
Ibrani mempunyai masalah yang serupa. Skrip berjalan dari kanan ke kiri. Nombor ID Israel menggunakan checksum - ujian seperti Luhn pada sembilan digit.
Dokumen undang-undang Israel sering mencampurkan teks Ibrani, teks skrip Arab, dan bahasa Inggeris dalam satu fail. Ini biasa dalam kontrak di mana Ibrani adalah bahasa utama dan istilah Inggeris ditambah sebagai rujukan.
Fail pelbagai skrip memerlukan pengesanan skrip sebelum NER. Tanpanya, satu lintasan NER menerapkan peraturan Latin pada skrip RTL. Outputnya salah.
Penyelidikan dalam Nature Scientific Reports (2025) menguji NER rentas bahasa pada PII RTL. Model piawai mendapat skor F1 sebesar 0.60-0.83. XLM-RoBERTa yang ditala halus pada data NER RTL mendapat skor 0.88 ke atas.
Keperluan Seni Bina Rentas Bahasa
Pengesanan PII RTL yang baik memerlukan tiga perkara yang biasanya tiada dalam alat yang mengutamakan Barat.
Pengendalian teks RTL: Pematuhan dua arah Unicode untuk aliran teks yang betul. Tokenisasi sedar RTL yang mencari sempadan kata dalam teks kanan-ke-kiri.
NER sedar morfologi: Penganalisis morfologi seperti Farasa untuk bahasa Arab, atau model transformer yang ditala halus pada data NER RTL. Model mesti telah mempelajari variasi morfologi.
Jenis entiti khusus rantau: ID Emirates, ID Israel, ID Nasional Arab Saudi, dan ID Nasional Mesir masing-masing memerlukan definisi eksplisit dengan peraturan format. Alat Barat generik tidak mempunyainya.
Lihat cara saluran paip NER pelbagai bahasa kami mengendalikan pengesanan skrip merentasi 48 bahasa. Untuk senarai penuh jenis pengecam MENA yang kami sokong, lawati katalog entiti. Panduan pematuhan GDPR kami merangkumi cara jurang pengesanan mewujudkan pendedahan Artikel 32.