Medzihra RTL súladu
Arabčina a hebrejčina predstavujú systematické zlyhanie pri rozpoznávaní PII pre organizácie používajúce nástroje postavené primárne na jazykoch s ľavo-doprava latinkovým písmom. Problém nie je len smerový. Texty s ľavo-doprava a sprava-doľava smer vyžadujú iné tokenizovanie, inú logiku segmentácie a inú detekciu hraníc entít ako LTR prístupy. Štandardné NER systémy trénované na anglických údajoch aplikujú LTR predpoklady segmentácie, ktoré produkujú nesprávne hranice entít v arabskom a hebrejskom texte.
Vo svojej hĺbke arabská morfológia pridáva ďalšiu výzvu. Arabčina používa systém založený na koreňe, kde jeden koreň môže produkovať desiatky povrchových foriem prostredníctvom predpôn a prípon. Meno osoby – Mohammed – sa môže objaviť ako "Mohammed", "Al-Mohammed", "bin Mohammed", "Mohammed al-Rashid" alebo viaceré inflektované formy v závislosti od gramatického kontextu. Regex vzory navrhnuté pre západné formáty mien nemôžu zachytiť túto morfologickú variáciu. Model ML trénovaný primárne na anglických údajoch stratí alternatívne povrchové formy.
GDPR neuznáva jazyk ako hranicu súladu. Podnik EÚ spracovávajúci arabskú korešpondenciu zákazníkov z arabských krajín musí aplikovať rovnaké normy ochrany údajov ako pri francúzskej korešpondencii. Technické zlyhanie pri rozpoznávaní arabských PII je právnym zlyhaním podľa článku 32 GDPR.
Prípad použitia KYC
Fintech spoločnosť v Dubaji spracovávajúca dokumenty KYC (Know Your Customer) pre zákazníkov EÚ ilustruje vzor. KYC dokumenty pre arabských zákazníkov obsahujú arabské mená zákazníkov, U