Takaisin BlogiinTekninen

Lähi-idän vaatimustenmukaisuusaukko...

GDPR ei pääty Bosporin yli. Arabialainen ja heprealainen PII EU:n liiketoimintaprosesseissa on järjestelmällisesti suojaamatonta.

April 1, 20268 min lukuaika
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

RTL-vaatimustenmukaisuusaukko

Arabialainen ja heprealainen aiheuttavat järjestelmällisen PII-tunnistusongelman organisaatioille, jotka käyttävät työkaluja, jotka on rakennettu ensisijaisesti vasemmalta oikealle kirjoitetuille latinalaisille kielille. Ongelma ei ole vain suuntaan liittyvä. Oikealta vasemmalle kirjoitetut kielet vaativat erilaista tokenisointia, erilaista segmentointilogiikkaa ja erilaista entiteettirajojen tunnistamista kuin LTR-lähestymistavat. Standardit NER-järjestelmät, jotka on koulutettu englanninkielisillä tiedoilla, soveltavat LTR-segmentoinnin oletuksia, jotka tuottavat virheellisiä entiteettirajoja arabialaisessa ja heprealaisessa tekstissä.

Suuntaisuuden lisäksi arabialainen morfologia tuo syvemmän haasteen. Arabialainen kieli käyttää juuripohjaista järjestelmää, jossa yksi juuri voi tuottaa kymmeniä pintamuotoja etuliitteiden ja jälkiliitteiden kautta. Henkilön nimi — Mohammed — voi esiintyä muodoissa "Mohammed," "Al-Mohammed," "bin Mohammed," "Mohammed al-Rashid," tai useissa taivutetuissa muodoissa kieliopillisesta kontekstista riippuen. Länsimaisten nimimuotojen regex-mallit eivät voi vangita tätä morfologista vaihtelua. ML-malli, joka on koulutettu ensisijaisesti englanninkielisillä tiedoilla, ohittaa vaihtoehtoiset pintamuodot.

GDPR ei tunnusta kieltä vaatimustenmukaisuuden rajana. EU:n yrityksen, joka käsittelee arabian kielellä asiakaskirjeenvaihtoa MENA-asiakkailta, on sovellettava samoja tietosuojastandardeja kuin ranskankielisessä kirjeenvaihdossa. Tekninen epäonnistuminen arabialaisen PII:n tunnistamisessa on oikeudellinen vaatimustenmukaisuuden epäonnistuminen GDPR:n artiklan 32 mukaan.

KYC-käyttötapaus

Dubaihin sijoittunut fintech-yritys, joka käsittelee KYC (Know Your Customer) -dokumentteja EU:n asiakkaille, havainnollistaa kaavaa. Arabialaisille asiakkaille tarkoitetut KYC-dokumentit sisältävät arabialaisia asiakastietoja, Yhdistyneiden arabiemiirikuntien Emirates-tunnuksia (15-numeroinen muoto) ja arabialaiskirjoituksella olevia osoitteita englanninkielisen liiketoimintakirjeenvaihdon rinnalla.

Emirates-tunnuksen muoto — 784-XXXX-XXXXXXX-X — on erityisellä rakenteella: maan koodi 784, syntymävuosi, seitsemän numeron sekvenssi, tarkistusnumero. Länsimaiset PII-työkalut, joilta puuttuvat Yhdistyneiden arabiemiirikuntien erityiset entiteettimääritelmät, eivät voi tunnistaa tätä tunnusmuotoa lainkaan. Arabialaiset nimikentät käsitellään latinalaiskirjoituksella olevalla NER:llä, joka tuottaa virheellistä segmentointia. Tulos: järjestelmällinen PII-näkymättömyys KYC-vaatimustenmukaisuusprosesseissa.

GDPR:n velvoitteiden alaisille organisaatioille, jotka kattavat nämä tiedot, tekninen aukko luo suoran sääntelyaltistuksen. GDPR:n artikla 32 vaatii "sopivia teknisiä ja organisatorisia toimenpiteitä" — järjestelmä, joka ei voi tunnistaa tunnisteita 22 %:ssa maailman kielistä, ei ole sopiva tekninen toimenpide.

Heprealaiset ja sekoitetut kielidokumentit

Heprealainen tuo mukanaan samankaltaisia haasteita. Heprealainen aakkosto kirjoitetaan oikealta vasemmalle; israelilaisilla henkilötunnuksilla on erityinen validointialgoritmi (Luhn-tyyppinen tarkistusnumero 9-numerisille israelilaisille henkilötunnuksille). Israelilaiset oikeudelliset asiakirjat voivat sisältää heprealaista tekstiä, arabialaista tekstiä ja englanninkielistä tekstiä samassa asiakirjassa — erityisesti kaupallisissa sopimuksissa, joissa heprea on ensisijainen kieli, englanninkieliset palveluehdot sisältyvät viittauksena, ja arabiaa käytetään arabiaa puhuville osapuolille.

Sekoitetut kielidokumentit, joissa on useita kirjoitusjärjestelmiä samassa tekstilohkossa, vaativat kirjoitusjärjestelmän tunnistamista ennen entiteettitunnistusta. Ilman kirjoitusjärjestelmän tunnistusta yksi NER-kierros voi soveltaa latinalaista tokenisointia semitisille kirjoituksille, mikä tuottaa täysin virheellistä segmentointia.

Nature Scientific Reports -julkaisussa (2025) julkaistu tutkimus tarkasteli erityisesti kielirajojen ylittävän NER:n suorituskykyä arabialaisen PII:n tunnistamisessa, ja havaitsi F1-pisteet 0.60–0.83 standardimalleille verrattuna 0.88+:aan erityisesti rakennetuilla kielirajojen ylittävillä lähestymistavoilla (XLM-RoBERTa hienosäädetty arabialaiselle NER-datalle).

Kielirajojen ylittävän arkkitehtuurin vaatimus

Tehokas arabialaisen ja heprealaisen PII:n tunnistaminen vaatii kolme komponenttia, joita länsimaalaistyökalut tyypillisesti puuttuvat:

RTL-tekstinkäsittely: Unicode kaksisuuntaisen algoritmin vaatimustenmukaisuus oikean tekstin virran renderöinnille, ja RTL-tietoista tokenisointia, joka kunnioittaa sanarajoja oikealta vasemmalle kirjoitetussa tekstissä.

Morfologiatietoista NER: Joko morfologinen analysoija (Farasa arabialle tai vastaava) tai muunnosmalli, joka on hienosäädetty arabialaisen/heprealaisen NER-datan perusteella ja oppinut morfologista vaihtelua.

Aluekohtaiset entiteettimääritelmät: Emirates ID, israelilainen ID, Saudi-Arabian kansallinen ID, Egyptin kansallinen ID ja muut MENA-spesifiset tunnistusmuodot vaativat eksplisiittisiä entiteettityyppimääritelmiä muotojen spesifikaatioilla.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.