Samræmisgapið í hægri-til-vinstri texta
GDPR lýkur ekki við Bosporussund. Evrópsk fyrirtæki sem nota tæki byggð á latínuletri eiga blinda punkta. Þeir eru raunverulegir og að mestu leiti hunsaðir.
Vandinn snýr ekki eingöngu að textastefnu. Hægri-til-vinstri skriftir krefjast annarrar tákngreiningaraðferðar. Þær krefjast annarrar skiptingar. Einingamörk virka öðruvísi en í vinstri-til-hægri texta. NER-kerfi þjálfuð á ensku beita vinstri-til-hægri reglum. Þessar reglur bila á hægri-til-vinstri texta. Þær gefa rangar einingamörk.
Arabísk málfræði gerir hlutina erfiðari. Tungumálið notar rætur. Ein rót gefur tugi orðamynda. Nafn eins og Mohammed getur birst sem "Al-Mohammed", "bin Mohammed" eða "Mohammed al-Rashid". Regex-mynstur smíðuð fyrir vestræn nöfn sakna þessara mynda. Líkön þjálfuð á ensku sakna þeirra líka.
GDPR lítur ekki á tungumál sem samræmismörk. Evrópsk fyrirtæki sem vinna úr tölvupósti frá MENA-viðskiptavinum verða að uppfylla sömu reglur og fyrir frönsku tölvupóst. Það að missa persónugreinileg gögn í hægri-til-vinstri texta er lagaleg bilun samkvæmt GDPR 32. grein.
KYC-dæmið
Dubai-fjármálafyrirtæki sem vinnur úr KYC-skjölum fyrir evrópska viðskiptavini sýnir þetta skýrt.
KYC-skrár arabískra viðskiptavina innihalda nöfn í hægri-til-vinstri skrift, Emirate ID-númer frá Sameinuðu arabísku furstadæmunum og hægri-til-vinstri heimilisföng. Þetta liggur við hlið enskra viðskiptatexta.
Emirates ID-sniðið er 784-XXXX-XXXXXXX-X. Landsnúmer 784. Fæðingarár. Sjö stafir. Athugunarstaður. Vestræn PII-tæki án UAE-einingaskilgreininga geta ekki fundið þetta snið. Nafnareitirnir fara í gegnum latínuleturs-NER. Skiptingin er röng. Persónugreinileg gögn verða ósýnileg í vinnuflæðinu.
Fyrir fyrirtæki með GDPR-skyldur yfir þessum gögnum skapar bilið raunverulegar lagalegar áhættur. GDPR 32. grein krefst viðeigandi tæknilegra ráðstafana. Tæki sem saknir auðkenna í 22% tungumála heimsins uppfyllir ekki þessa kröfu.
Hebreska og skjöl á blönduðum tungumálum
Hebreska skapar svipaðar áskoranir. Skriftin rennur hægri-til-vinstri. Ísraelskir auðkenniskortar nota prófsamtölu -- Luhn-líka próf á níu tölustöfum.
Ísraelskir lagaskjalar blanda oft saman hebresku, arabísktum texta og ensku í einni skrá. Þetta er algengt í samningum þar sem hebreska er aðaltungumálið og enskir skilmálar eru bætt við með tilvísun.
Skjöl á blönduðum skriftum þurfa skriftargreiningu áður en NER er framkvæmt. Án þess beitir eitt NER-stig latínureglum á hægri-til-vinstri skriftir. Niðurstaðan er röng.
Rannsókn í Nature Scientific Reports (2025) prófaði krosslingvísar NER á hægri-til-vinstri persónugreinilegum gögnum. Staðlaðar líkön náðu F1 upp á 0.60-0.83. XLM-RoBERTa fínstillt á hægri-til-vinstri NER-gögnum náði 0.88 og hærra.
Kröfur um krosslingvísar uppbyggingu
Góð greining persónugreinilegs efnis í hægri-til-vinstri texta krefst þriggja hluta sem vestræn-fyrst tæki hafa venjulega ekki.
Meðhöndlun á hægri-til-vinstri texta: Unicode tvístefnu-samræmi fyrir rétta textaflæðingu. Hægri-til-vinstri meðvæt tákngreining sem finnur orðamörk í hægri-til-vinstri texta.
Málfræðimeðvæt NER: Málfræðigreining eins og Farasa fyrir arabísku, eða umbreytilíkan fínstillt á hægri-til-vinstri NER-gögnum. Líkanið verður að hafa lært málfræðilegar breytingar.
Svæðisbundnar einingategundir: Emirates ID, ísraelskur auðkenniskort, sádi-arabískt þjóðernisauðkenni og egypskt þjóðernisauðkenni þurfa hvert og eitt skýrar skilgreiningar með sniðsreglum. Almenn vestræn tæki hafa þetta ekki.
Sjáðu hvernig margtyngdar NER-leiðslur okkar sér um skriftargreiningu yfir 48 tungumál. Fyrir heildarlista yfir MENA-auðkennisgerðir sem við styðjum, heimsæktu einingaskrána. Leiðbeiningar okkar um GDPR-samræmi útskýrir hvernig greiningarbil skapar 32. greinar-útsetningu.