anonym.legal
Назад на блоготТехнички

Арапски и еврејски PII: Зошто MENA привремено алатка...

MENA нарушувач што обработува документи на арапски (RTL скрипт) и еврејски (RTL скрипт) открива дека англиските PII алатки пропаѓаат при откривање...

April 1, 20268 мин читање
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

RTL Скрипт Предизвик

Арапски (العربية) и еврејски (עברית) се Right-to-Left (RTL) скриптите. Текстот тече од десната на левата страна. Но, большинстав од PII детекторите се обучене на Left-to-Right (LTR) јазици како англиски, германски, францупски.

Проблем 1: Препознавање на имиња

Арапско име: محمد علي (Muḥammad ʻAlī)

  • Препознавач обучен на англиски имиња очекува LTR редослед: "John Smith"
  • Препознавач на RTL Арапски видби "محمد علي" и мора да знае да е име
  • Алатка обучена на LTR може незнае да разликува име од глаголи или описување

Проблем 2: Национални идентификатори

Саудиска национална ID: 1234567890123

  • Еврејска национална ID: 123456789
  • Арапска национална ID: 9876543210

Свака земја има различна структура, различна дължина. Алатка обучена на английските SSN (формат XXX-XX-XXXX) не препознава саудиску структура.

Проблем 3: Телефонски броеви

Арапски телефонски номер: +966550123456 (Саудиска)

  • Еврејски телефонски номер: +97250123456 (Израел)
  • RTL скрипт значи дека даже регионалниот код мога да биде напишен в RTL редослед

Алатка за англиски PII види "+966550123456" и познава американски +1 код, но не и Саудиски +966.

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.