anonym.legal
Nazaj na blogTehnično

Razpoka v skladnosti na Bližnjem vzhodu...

GDPR se ne konča na Bosforu. Arabski in hebrejski osebni podatki v poslovnih procesih EU so sistematično nezaščiteni.

April 1, 20268 min branja
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

Razpoka v skladnosti RTL

Arabščina in hebrejščina predstavljata sistemsko napako pri zaznavanju osebnih podatkov za organizacije, ki uporabljajo orodja, sestavljena predvsem za levo-desno latinskega письма. Problem ni le smerski. Desno-levesni pisni sistemi zahtevajo drugačno tokenizacijo, drugačno logiko segmentacije in drugačno zaznavo mejnih linij entitet kot pristopi LTR. Standardni sistemi NER, usposobljeni na angleških podatkih, uporabljajo predpostavke segmentacije LTR, ki v arabščini in hebrejščini ustvarjajo napačne meje entitet.

Poleg smernosti arabska morfologija predstavlja globlji izziv. Arabščina uporablja sistem na osnovi korenin, pri katerem lahko ena sama korenina s predponami in priponami ustvari ducat površinskih oblik. Ime osebe - Mohammed - se lahko pojavi kot "Mohammed", "Al-Mohammed", "bin Mohammed", "Mohammed al-Rashid" ali nekaj nagnjenih oblik, odvisno od slovničnega konteksta. Vzorci regex, zasnovan za zahodne oblike imen, ne morejo zajeti to morfološko raznovrstnost. Model ML, usposobljen predvsem na angleških podatkih, bo spregledal nadomestne površinske oblike.

GDPR ne prizna jezika kot mejo skladnosti. Podjetje EU, ki obdeluje arabsko-jezično korespondencijo strank iz MENA s stališča GDPR. Tehnična napaka pri zaznavanju arabskih osebnih podatkov je pravna napaka skladnosti po 32. členu GDPR.

Primer rabe KYC

Podjetje fintech v Dubaju, ki obdeluje dokumente KYC (Know Your Customer) za stranke EU, ponazarja ta vzorec. Dokumenti KYC za arabske stranke vsebujejo arabska imena strank, U

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.