MENA región a PII ochrana
MENA (Middle East and North Africa) je složitý trh pro PII ochranu:
- Arabsky mluvící uživatelé v EU jsou chráněni GDPR
- Lokální zákony o ochraně dat: UAE PDPL, Saudi PDPL, Egypt PDPL
- Hebrejština pro izraelský trh (PPPA – Privacy Protection Act)
Arabské PII výzvy
RTL (Right-to-Left) komplexita
Arabský text teče zprava doleva. Smíšené arabsko-anglické texty (běžné v obchodních dokumentech) vytvářejí bidrektionální výzvy pro NLP tokenizátor.
Morfologická bohatost
Arabská jména se připojují k předponám a příponám:
- محمد (Muhammad) může být بمحمد (Bi-Muhammad = od Muhammada)
- Standardní tokenizátor zachytí „بمحمد" ale ne „محمد" jako entitu
Dialektické variace
30+ arabských dialektů s různou ortografií. Marockého arabského rezidenta v EU může psát jinak než egyptský rezident.
Arabské národní ID formáty
- Saudi ID (رقم الهوية الوطنية): 10 číslic začínající 1 nebo 2
- UAE National ID (هوية الإمارات): 15 číslic
- Egyptian National ID: 14 číslic
Hebrejské PII výzvy
Gematria a číselné hodnoty
Hebrejské písmena mají číselné hodnoty. Toto způsobuje potenciální zmatení mezi písmeny a čísly v NLP.
Absence nikudů (diakritiky)
Moderní hebrejský text typicky vynechává nikudy (samohláskové značky). Toto způsobuje větší ambiguitu než plně vokalizovaný text.
Izraelský teudát zehut (תעודת זהות)
9-číselné ID s kontrolní číslicí (Luhnův algoritmus) – validace je klíčová pro přesnou detekci.
Implementace pro MENA
anonym.legal jazykové modely
- Arabic (
ar): Plná podpora s 94,7% přesností na arabských jménech - Hebrew (
he): Plná podpora s 92,1% přesností na hebrejských jménech
Vlastní entity pro MENA
{
"customEntities": [
{"name": "SAUDI_NATIONAL_ID", "pattern": "[12]\d{9}"},
{"name": "UAE_NATIONAL_ID", "pattern": "784-\d{4}-\d{7}-\d"},
{"name": "ISRAELI_ID", "pattern": "\d{9}"}
]
}
Bidrektionální text zpracování
Pro smíšené arabsko-anglické dokumenty:
response = requests.post(
"https://anonym.legal/api/anonymize",
json={
"text": "Contact: محمد أحمد, email: m.ahmed@example.com",
"language": "auto",
"bidi_support": true
}
)
Závěr
MENA trhy vyžadují specializovanou arabskou a hebrejskou NLP pro přesnou PII detekci. Organizace působící v MENA nebo zpracovávající data od MENA rezidentů musí zajistit jejich PII nástroje zvládají RTL jazyky s odpovídající přesností.