ความท้าทาย MENA
ปัญหา #1: Right-to-Left (RTL) Scripts
ภาษาอาหรับ:
Alajab reading direction:
الرقم الشخصي: 123-456-789 (Arabic ID)
↑ Read from RIGHT to LEFT ← ← ← ←
ปัญหา #2: No Short Vowels in Written Text
Hebrew בעברית:
Written: תז ישראל
(teudat zehut)
Meaning: Israeli ID
Western NLP:
"תז" looks like 2-letter abbreviation
Miss rate: 60-70%
ปัญหา #3: Connected Letters
Arabic:
موزان الحكومة (meezan)
Meaning: Government budget number
Letters are CONNECTED:
م و ز ا ن
↓ ↓ ↓ ↓ ↓
حـــــــــــــــو (shown as one connected unit)
Word segmentation fails 40-50% of the time
ตัวระบุ MENA National ID
Saudi Arabia
National ID (رقم الهوية الوطنية):
- รูปแบบ: 10 หลัก
- Checksum: Luhn algorithm
- Accuracy ของ anonym.legal: 96% (vs. 25% regex)
United Arab Emirates
Emirate ID (بطاقة الهوية):
- 15 หลัก
- Format: XXX-XXXX-XXXXXX-X (country-emirate-sequence-checksum)
- Accuracy: 97%
Israel
ID Number (תז - Teudat Zehut):
- 9 หลัก
- Checksum: Weighted modulo 11
- Accuracy: 96% (vs. 15% without RTL understanding)