Zpět na blogTechnické

Detekce PII v arabštině a hebrejštině: MENA GDPR průvodce

Arabština a hebrejština jsou RTL jazyky s komplexní morfologií. Jak detekovat PII pro MENA trhy v souladu s GDPR a místními regulacemi.

April 1, 20268 min čtení
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

MENA región a PII ochrana

MENA (Middle East and North Africa) je složitý trh pro PII ochranu:

  • Arabsky mluvící uživatelé v EU jsou chráněni GDPR
  • Lokální zákony o ochraně dat: UAE PDPL, Saudi PDPL, Egypt PDPL
  • Hebrejština pro izraelský trh (PPPA – Privacy Protection Act)

Arabské PII výzvy

RTL (Right-to-Left) komplexita

Arabský text teče zprava doleva. Smíšené arabsko-anglické texty (běžné v obchodních dokumentech) vytvářejí bidrektionální výzvy pro NLP tokenizátor.

Morfologická bohatost

Arabská jména se připojují k předponám a příponám:

  • محمد (Muhammad) může být بمحمد (Bi-Muhammad = od Muhammada)
  • Standardní tokenizátor zachytí „بمحمد" ale ne „محمد" jako entitu

Dialektické variace

30+ arabských dialektů s různou ortografií. Marockého arabského rezidenta v EU může psát jinak než egyptský rezident.

Arabské národní ID formáty

  • Saudi ID (رقم الهوية الوطنية): 10 číslic začínající 1 nebo 2
  • UAE National ID (هوية الإمارات): 15 číslic
  • Egyptian National ID: 14 číslic

Hebrejské PII výzvy

Gematria a číselné hodnoty

Hebrejské písmena mají číselné hodnoty. Toto způsobuje potenciální zmatení mezi písmeny a čísly v NLP.

Absence nikudů (diakritiky)

Moderní hebrejský text typicky vynechává nikudy (samohláskové značky). Toto způsobuje větší ambiguitu než plně vokalizovaný text.

Izraelský teudát zehut (תעודת זהות)

9-číselné ID s kontrolní číslicí (Luhnův algoritmus) – validace je klíčová pro přesnou detekci.

Implementace pro MENA

anonym.legal jazykové modely

  • Arabic (ar): Plná podpora s 94,7% přesností na arabských jménech
  • Hebrew (he): Plná podpora s 92,1% přesností na hebrejských jménech

Vlastní entity pro MENA

{
  "customEntities": [
    {"name": "SAUDI_NATIONAL_ID", "pattern": "[12]\d{9}"},
    {"name": "UAE_NATIONAL_ID", "pattern": "784-\d{4}-\d{7}-\d"},
    {"name": "ISRAELI_ID", "pattern": "\d{9}"}
  ]
}

Bidrektionální text zpracování

Pro smíšené arabsko-anglické dokumenty:

response = requests.post(
    "https://anonym.legal/api/anonymize",
    json={
        "text": "Contact: محمد أحمد, email: m.ahmed@example.com",
        "language": "auto",
        "bidi_support": true
    }
)

Závěr

MENA trhy vyžadují specializovanou arabskou a hebrejskou NLP pro přesnou PII detekci. Organizace působící v MENA nebo zpracovávající data od MENA rezidentů musí zajistit jejich PII nástroje zvládají RTL jazyky s odpovídající přesností.

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.