anonym.legal
Назад до блогуТехнічні

Прогалина відповідності Близького Сходу...

GDPR не закінчується на Босфорі. Арабські та івритські PII в бізнес-процесах ЄС систематично не захищені.

April 1, 20268 хв читання
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

Прогалина MENA-ЄС

Багато підприємств ЄС мають значні бізнес-відносини в MENA:

  • Банки ЄС з клієнтами в ОАЕ, Саудівській Аравії, Єгипті
  • Технологічні компанії ЄС з ізраїльськими партнерами
  • Юридичні фірми ЄС з клієнтами з Лівану, Йорданії, Марокко

ГРДР застосовується до обробки персональних даних громадян ЄС — але ці бізнес-взаємодії також включають дані MENA, які можуть входити в набори даних ЄС.

Технічні виклики RTL

Виклик 1: Спрямованість тексту

Арабська та іврит пишуться справа наліво. Більшість NLP-інструментів:

  • Плутаються з позиціюванням токена при мішаному RTL/LTR тексті
  • Неправильно розбивають слова
  • Пропускають ідентифікатори в RTL-сегментах

Виклик 2: Морфологія

Арабська: Займенники та прийменники прикріплені до слів. "Іван в Дубаї" може бути одним словом у залежності від контексту.

Іврит: Схожа прикріплення. Ідентифікатори можуть бути частиною більшого слова.

Виклик 3: Специфічні ідентифікатори

ІдентифікаторКраїнаФормат
Emirates IDОАЕ784-XXXX-XXXXXXX-X
IqamaСаудівська Аравія10 цифр
Teudat ZehutІзраїль9 цифр + контрольна
CUITЄгипет14 цифр

Рішення anonym.legal

  • Повна підтримка RTL для арабської та іврит

  • Специфічні ідентифікатори для ОАЕ, Саудівська Аравія, Ізраїль, Єгипет

  • XLM-RoBERTa для крос-лінгвального виявлення

  • 48 мов включаючи арабська (MSA + основні діалекти)

  • Переглянути підтримку мов

  • Розпочати безкоштовно


Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.