RTL Скрипт Предизвик
Арапски (العربية) и еврејски (עברית) се Right-to-Left (RTL) скриптите. Текстот тече од десната на левата страна. Но, большинстав од PII детекторите се обучене на Left-to-Right (LTR) јазици како англиски, германски, францупски.
Проблем 1: Препознавање на имиња
Арапско име: محمد علي (Muḥammad ʻAlī)
- Препознавач обучен на англиски имиња очекува LTR редослед: "John Smith"
- Препознавач на RTL Арапски видби "محمد علي" и мора да знае да е име
- Алатка обучена на LTR може незнае да разликува име од глаголи или описување
Проблем 2: Национални идентификатори
Саудиска национална ID: 1234567890123
- Еврејска национална ID: 123456789
- Арапска национална ID: 9876543210
Свака земја има различна структура, различна дължина. Алатка обучена на английските SSN (формат XXX-XX-XXXX) не препознава саудиску структура.
Проблем 3: Телефонски броеви
Арапски телефонски номер: +966550123456 (Саудиска)
- Еврејски телефонски номер: +97250123456 (Израел)
- RTL скрипт значи дека даже регионалниот код мога да биде напишен в RTL редослед
Алатка за англиски PII види "+966550123456" и познава американски +1 код, но не и Саудиски +966.