Razpoka v skladnosti RTL
Arabščina in hebrejščina predstavljata sistemsko napako pri zaznavanju osebnih podatkov za organizacije, ki uporabljajo orodja, sestavljena predvsem za levo-desno latinskega письма. Problem ni le smerski. Desno-levesni pisni sistemi zahtevajo drugačno tokenizacijo, drugačno logiko segmentacije in drugačno zaznavo mejnih linij entitet kot pristopi LTR. Standardni sistemi NER, usposobljeni na angleških podatkih, uporabljajo predpostavke segmentacije LTR, ki v arabščini in hebrejščini ustvarjajo napačne meje entitet.
Poleg smernosti arabska morfologija predstavlja globlji izziv. Arabščina uporablja sistem na osnovi korenin, pri katerem lahko ena sama korenina s predponami in priponami ustvari ducat površinskih oblik. Ime osebe - Mohammed - se lahko pojavi kot "Mohammed", "Al-Mohammed", "bin Mohammed", "Mohammed al-Rashid" ali nekaj nagnjenih oblik, odvisno od slovničnega konteksta. Vzorci regex, zasnovan za zahodne oblike imen, ne morejo zajeti to morfološko raznovrstnost. Model ML, usposobljen predvsem na angleških podatkih, bo spregledal nadomestne površinske oblike.
GDPR ne prizna jezika kot mejo skladnosti. Podjetje EU, ki obdeluje arabsko-jezično korespondencijo strank iz MENA s stališča GDPR. Tehnična napaka pri zaznavanju arabskih osebnih podatkov je pravna napaka skladnosti po 32. členu GDPR.
Primer rabe KYC
Podjetje fintech v Dubaju, ki obdeluje dokumente KYC (Know Your Customer) za stranke EU, ponazarja ta vzorec. Dokumenti KYC za arabske stranke vsebujejo arabska imena strank, U