Vrzel skladnosti pri pisavah desno-levo
GDPR se ne konca pri Bosporju. Podjetja v EU, ki uporabljajo orodja za latinsko pisavo, imajo slepo tocko. Je resnicna in jo vecinoma prezirajo.
Tezava ni le smer besedila. Pisave desno-levo (RTL) zahtevajo drugacno tokenizacijo. Zahtevajo drugacno segmentacijo. Meje entitet delujejo drugace kot v besedilu levo-desno (LTR). Sistemi NER, nauceni na anglescini, uporabljajo pravila LTR. Ta pravila se zlomijo na besedilu RTL. Dajejo napacne meje entitet.
Arabska morfologija otezuje stvari se bolj. Jezik uporablja korene. En koren da na desetine besednih oblik. Ime, kot je Mohammed, se lahko pojavi kot "Al-Mohammed", "bin Mohammed" ali "Mohammed al-Rashid". Vzorci regex, zgrajeni za zahodna imena, te oblike spregledajo. Modeli, nauceni na anglescini, jih prav tako.
GDPR ne obravnava jezika kot mejo skladnosti. Podjetje v EU, ki obdeluje pospejevanjoposto strank iz regije MENA, mora izpolnjevati enaka pravila kot za francosko pospejevanjoposto. Zamudena PII v besedilu RTL je pravna napaka po 32. clenu GDPR.
Primer uporabe KYC
Dubajski fintech, ki obdeluje dokumente KYC za stranke iz EU, to lepo ponazori.
Datoteke KYC arabskih strank vsebujejo imena v pisavi RTL, ID-je Emirates iz ZAE in naslove v RTL. Ti so postavljeni poleg anglescine poslovnega besedila.
Format Emirates ID je 784-XXXX-XXXXXXX-X. Koda drzave 784. Leto rojstva. Sedem stevk. Kontrolna stevka. Zahodna orodja za PII brez definicij entitet ZAE tega formata ne morejo najti. Polja imen gredo skozi NER za latinsko pisavo. Segmentacija je napacna. PII postane nevidna v delovnem toku.
Za podjetja z obveznostmi GDPR nad temi podatki vrzel ustvarja realno pravno tveganje. Clen 32 GDPR zahteva ustrezne tehnicne ukrepe. Orodje, ki zamudi identifikatorje v 22% svetovnih jezikov, ni ustrezen ukrep.
Hebrejski in mesani jezikovni dokumenti
Hebrejscina predstavlja podobne tezave. Pisava tece desno-levo. Izraelske identifikacijske stevilke uporabljajo kontrolno vsoto -- test, podoben Luhnu, na devetih stevkah.
Izraelski pravni dokumenti pogosto mesajo hebrejscino, arabsko pisavo in anglescino v eni datoteki. To je pogosto v pogodbah, kjer je hebrejscina glavni jezik in so angleski izrazi dodani s sklicevanjem.
Datoteke z mesanimi pisavami zahtevajo zaznavanje pisave pred NER. Brez tega en prehod NER uporabi latinska pravila za pisave RTL. Izhod je napacen.
Raziskave v Nature Scientific Reports (2025) so testirale medjezikovni NER na RTL PII. Standardni modeli so dosegli F1 od 0,60 do 0,83. XLM-RoBERTa, fino nastavljen na podatkih NER za RTL, je dosegel 0,88 in vec.
Zahteva po medjezikovni arhitekturi
Dobro zaznavanje RTL PII zahteva tri stvari, ki jih zahodnim orodjem navadno manjka.
Obravnavanje besedila RTL: Skladnost z Unicodeovim dvosmernimprotokolarjem za pravilni pretok besedila. Tokenizacija, ki prepozna meje besed v besedilu desno-levo.
NER, ki razume morfologijo: Morfoloski analizator, kot je Farasa za arabscino, ali transformatorski model, fino nastavljen na podatkih NER za RTL. Model mora biti naucen morfololoske variacije.
Tipi entitet, specificni za regijo: Emirates ID, izraelski ID, savdski nacionalni ID in egipcanski nacionalni ID vsak potrebuje eksplicitne definicije s pravili o formatu. Genericna zahodna orodja jih nimajo.
Poglejte, kako nas vecjezikovni pogon NER obravnava zaznavanje pisav v 48 jezikih. Za celoten seznam tipov identifikatorjev MENA, ki jih podpiramo, obisc katalog entitet. Nas vodnik za skladnost z GDPR pojasnjuje, kako vrzeli v zaznavanju ustvarjajo izpostavljenost po 32. clenu.