Die RTL-nakomingsgaping
GDPR eindig nie by die Bosporus nie. EU-maatskappye wat Latynse skrifgereedskap gebruik, het 'n blinde kol. Dit is werklik en word grootliks geIgnoreer.
Die probleem is nie net teksrigting nie. Regs-na-links skrifte benodig ander tokenisering. Hulle benodig ander segmentering. Entiteitsgrense werk anders as in LTR-teks. NER-stelsels wat op Engels opgelei is, pas LTR-reels toe. Hierdie reels breek op RTL-teks. Hulle gee verkeerde entiteitsgrense.
Arabiese morfologie maak dinge moeiliker. Die taal gebruik wortels. Een wortel gee dosyne woordvorme. 'n Naam soos Mohammed kan verskyn as "Al-Mohammed," "bin Mohammed," of "Mohammed al-Rashid." Regex-patrone wat vir Westerse name gebou is, mis hierdie vorme. Modelle wat op Engels opgelei is, mis hulle ook.
GDPR behandel taal nie as 'n nakomingsgrens nie. 'n EU-firma wat klientepos van MENA-kliante verwerk, moet dieselfde reels volg as vir Franse pos. Ontbrekende PII in RTL-teks is 'n wetlike mislukking onder GDPR Artikel 32.
Die KYC-gebruiksgeval
'n Dubai-fintekmaatskappy wat KYC-dokumente vir EU-kliante verwerk, illustreer dit duidelik.
KYC-leers vir Arabiese kliante bevat name in RTL-skrif, VAE Emirate-ID's, en RTL-adresse. Hierdie sit langs Engelse saketeks.
Die Emirate ID-formaat is 784-XXXX-XXXXXXX-X. Landkode 784. Geboortejaar. Sewe syfers. Kontrolesyfer. Westerse PII-gereedskap sonder VAE-entiteitsdefinisies kan hierdie formaat nie vind nie. Die naamvelde gaan deur Latynse NER. Die segmentering is verkeerd. PII word onsigbaar in die werkvloei.
Vir firmas met GDPR-pligte oor hierdie data skep die gaping werklike wetlike risiko. GDPR Artikel 32 vereis toepaslike tegniese maatreels. 'n Gereedskap wat identifiseerders in 22% van die wereld se tale mis, is nie 'n toepaslike maatreel nie.
Hebreeus en Gemengde-taal Dokumente
Hebreeus stel soortgelyke probleme voor. Die skrif loop regs na links. Israeliese ID-nommers gebruik 'n kontrolesom -- 'n Luhn-agtige toets op nege syfers.
Israeliese regsdokumente meng dikwels Hebreeus, Arabies-skrif teks, en Engels in een leer. Dit is algemeen in kontrakte waar Hebreeus die hooftaal is en Engelse terme bygevoeg word.
Gemengde-skrif leers benodig skrifopsporing voor NER. Sonder dit pas 'n enkele NER-pas Latynse reels op RTL-skrifte toe. Die uitvoer is verkeerd.
Navorsing in Nature Scientific Reports (2025) het kruistalige NER op RTL PII getoets. Standaardmodelle het F1 van 0.60--0.83 behaal. XLM-RoBERTa fyngestem op RTL NER-data het 0.88 en hoer behaal.
Die Kruistalige Argitektuurvereiste
Goeie RTL PII-opsporing benodig drie dinge wat Westerse-eerste gereedskap gewoonlik nie het nie.
RTL-tekshantering: Unicode bidireksionele nakoming vir korrekte teksvloei. RTL-bewuste tokenisering wat woordgrense in regs-na-links teks vind.
Morfologie-bewuste NER: 'n Morfologiese analiseerder soos Farasa vir Arabies, of 'n transformatormodel fyngestem op RTL NER-data. Die model moet morfologiese variasie geleer het.
Streekspesifieke entiteitstipes: Emirate ID, Israeliese ID, Saoedi-Arabiese Nasionale ID, en Egiptiese Nasionale ID benodig elk uitdruklike definisies met formaatreels. Generiese Westerse gereedskap het dit nie.
Sien hoe ons veeltalige NER-pyplyn skrifopsporing oor 48 tale hanteer. Vir die volledige lys MENA-identifiseerder tipes wat ons ondersteun, besoek die entiteitskatalogus. Ons GDPR-nakomingsgids dek hoe opsporingsgapings Artikel 32-blootstelling skep.