Paremalt vasakule kirjutamise vastavuslünk
GDPR ei lõpe Bosporusel. ELi ettevõtted, mis kasutavad ladina tähestiku tööriistu, on pimedas nurgas. See on reaalne ja suuresti ignoreeritud.
Probleem ei seisne ainult teksti suunas. Paremalt vasakule kirjutavad skriptid vajavad teistsugust tokeniseerimist. Nad vajavad teistsugust segmenteerimist. Üksuste piirid toimivad teisiti kui vasakult paremale tekstis. Inglise keelel treenitud NER-süsteemid rakendavad vasakult paremale reegleid. Need reeglid ei toimi paremalt vasakule tekstil. Nad annavad valed üksuste piirid.
Araabia morfoloogia muudab asja keerulisemaks. Keel kasutab juuri. Ühest juurest tuleneb kümneid sõnavorme. Nimi nagu Mohammed võib esineda kujul "Al-Mohammed", "bin Mohammed" või "Mohammed al-Rashid". Läänelike nimede jaoks loodud regex-mustrid jätavad need vormid kahe silma vahele. Ka inglise keelel treenitud mudelid jätavad need vahele.
GDPR ei käsitle keelt vastavuspiirина. ELi ettevõte, mis töötleb MENA klientide kirjavahetust, peab täitma samu reegleid nagu prantsuskeelse posti puhul. Puuduv isikuandmete tuvastus paremalt vasakule tekstis on õiguslik ebaõnnestumine GDPR artikli 32 alusel.
KYC kasutamise näide
Dubai fintech, mis töötleb ELi klientide KYC-dokumente, illustreerib seda selgelt.
Araabi klientide KYC-failid sisaldavad nimesid paremalt vasakule skriptis, UAE Emirate ID-sid ja paremalt vasakule aadresse. Need asuvad ingliskeelse äriteksiga kõrvuti.
Emirate ID formaat on 784-XXXX-XXXXXXX-X. Riigikood 784. Sünniaasta. Seitse numbrit. Kontrollnumber. Lääne isikuandmete tööriistad ilma UAE üksuste definitsioonideta ei suuda seda formaati leida. Nimeväljad läbivad ladina tähestiku NER-i. Segmenteerimine on vale. Isikuandmed muutuvad töövoos nähtamatuks.
Ettevõtetele, kellel on GDPR-kohustused nende andmete üle, tekitab lünk reaalse õigusliku riski. GDPR artikkel 32 nõuab asjakohaseid tehnilisi meetmeid. Tööriist, mis jätab tuvastamata identifikaatorid 22% maailma keeltes, ei ole asjakohane meede.
Heebrea ja segakeelsed dokumendid
Heebrea esitab sarnaseid probleeme. Kiri liigub paremalt vasakule. Iisraeli ID-numbrid kasutavad kontrollsummat - Luhn-sarnast testi üheksale numbrikohale.
Iisraeli juriidilised dokumendid segavad sageli ühes failis heebrea, araabia kirjas teksti ja inglise keelt. See on tavaline lepingutes, kus heebrea on põhikeel ja ingliskeelsed terminid on viiteliselt lisatud.
Segakirja failid vajavad enne NER-i skripti tuvastamist. Ilma selleta rakendab üks NER-läbijooks paremalt vasakule skriptidele ladina reegleid. Tulemus on vale.
Nature Scientific Reports'i (2025) uuring testis mitmekeelset NER-i paremalt vasakule isikuandmetel. Standardmudelid said F1-skoori 0,60-0,83. Paremalt vasakule NER-andmetel peenhäälestatud XLM-RoBERTa sai 0,88 ja kõrgemalt.
Mitmekeelse arhitektuuri nõue
Hea paremalt vasakule isikuandmete tuvastus vajab kolme asja, mida lääne esikohaga tööriistadel tavaliselt pole.
Paremalt vasakule teksti käsitlemine: Unicode kahesuunalise vastavuse toetus õige tekstivoo jaoks. Paremalt vasakule teadlik tokeniseerimine, mis leiab sõnapiirid paremalt vasakule tekstis.
Morfoloogiateadlik NER: Morfoloogiline analüsaator nagu Farasa araabia keele jaoks või transformermudel, mis on peenhäälestatud paremalt vasakule NER-andmetel. Mudel peab olema õppinud morfoloogilisi variatsioone.
Piirkonnaspetsiifilised üksuste tüübid: Emirate ID, Iisraeli ID, Saudi Araabia rahvuslik ID ja Egiptuse rahvuslik ID vajavad igaüks selgesõnalisi definitsioone formaadireeglitest. Üldistel lääne tööriistadel neid pole.
Vaata, kuidas meie mitmekeelne NER-pipeline käsitleb skripti tuvastamist 48 keeles. Kõikide MENA identifikaatoritüüpide täieliku loetelu leiad üksuste kataloogist. Meie GDPR-vastavuse juhend selgitab, kuidas tuvastamislüngad loovad artikli 32 kokkupuudet.