Späť na blogTechnické

Medzinárodná medzera v súlade: Prečo sú arabské a...

GDPR nekončí pri Bosporе. Arabské a hebrejské PII v podnikových pracovných postupoch EÚ sú systematicky nechránené.

April 1, 20268 min čítania
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

Medzihra RTL súladu

Arabčina a hebrejčina predstavujú systematické zlyhanie pri rozpoznávaní PII pre organizácie používajúce nástroje postavené primárne na jazykoch s ľavo-doprava latinkovým písmom. Problém nie je len smerový. Texty s ľavo-doprava a sprava-doľava smer vyžadujú iné tokenizovanie, inú logiku segmentácie a inú detekciu hraníc entít ako LTR prístupy. Štandardné NER systémy trénované na anglických údajoch aplikujú LTR predpoklady segmentácie, ktoré produkujú nesprávne hranice entít v arabskom a hebrejskom texte.

Vo svojej hĺbke arabská morfológia pridáva ďalšiu výzvu. Arabčina používa systém založený na koreňe, kde jeden koreň môže produkovať desiatky povrchových foriem prostredníctvom predpôn a prípon. Meno osoby – Mohammed – sa môže objaviť ako "Mohammed", "Al-Mohammed", "bin Mohammed", "Mohammed al-Rashid" alebo viaceré inflektované formy v závislosti od gramatického kontextu. Regex vzory navrhnuté pre západné formáty mien nemôžu zachytiť túto morfologickú variáciu. Model ML trénovaný primárne na anglických údajoch stratí alternatívne povrchové formy.

GDPR neuznáva jazyk ako hranicu súladu. Podnik EÚ spracovávajúci arabskú korešpondenciu zákazníkov z arabských krajín musí aplikovať rovnaké normy ochrany údajov ako pri francúzskej korešpondencii. Technické zlyhanie pri rozpoznávaní arabských PII je právnym zlyhaním podľa článku 32 GDPR.

Prípad použitia KYC

Fintech spoločnosť v Dubaji spracovávajúca dokumenty KYC (Know Your Customer) pre zákazníkov EÚ ilustruje vzor. KYC dokumenty pre arabských zákazníkov obsahujú arabské mená zákazníkov, U

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.