anonym.legal
กลับไปที่บล็อกเทคนิค

ตรวจจับ PII ของ Arabic + Hebrew: ความท้าทายพิเศษของ...

RTL scripts, no vowels, connected letters ตัวระบุ AR/HE (National ID, Tax ID, IBAN) ต้องการ NER ที่ขาดไปในเครื่องมือตะวันตก

April 1, 20268 อ่านประมาณ
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

ความท้าทาย MENA

ปัญหา #1: Right-to-Left (RTL) Scripts

ภาษาอาหรับ:

Alajab reading direction:
الرقم الشخصي: 123-456-789  (Arabic ID)
     ↑ Read from RIGHT to LEFT ← ← ← ←

ปัญหา #2: No Short Vowels in Written Text

Hebrew בעברית:

Written: תז ישראל
(teudat zehut)

Meaning: Israeli ID

Western NLP:
"תז" looks like 2-letter abbreviation
Miss rate: 60-70%

ปัญหา #3: Connected Letters

Arabic:

موزان الحكومة (meezan)
Meaning: Government budget number

Letters are CONNECTED:
م و ز ا ن
↓ ↓ ↓ ↓ ↓
حـــــــــــــــو (shown as one connected unit)

Word segmentation fails 40-50% of the time

ตัวระบุ MENA National ID

Saudi Arabia

National ID (رقم الهوية الوطنية):

  • รูปแบบ: 10 หลัก
  • Checksum: Luhn algorithm
  • Accuracy ของ anonym.legal: 96% (vs. 25% regex)

United Arab Emirates

Emirate ID (بطاقة الهوية):

  • 15 หลัก
  • Format: XXX-XXXX-XXXXXX-X (country-emirate-sequence-checksum)
  • Accuracy: 97%

Israel

ID Number (תז - Teudat Zehut):

  • 9 หลัก
  • Checksum: Weighted modulo 11
  • Accuracy: 96% (vs. 15% without RTL understanding)

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.