anonym.legal
Πίσω στο BlogΤεχνικά

Το Χάσμα Συμμόρφωσης Μέσης Ανατολής...

Τα αραβικά και εβραϊκά χρησιμοποιούν αλφάβητα RTL που δεν υποστηρίζονται από τα περισσότερα εργαλεία PII.

April 1, 20268 λεπτά ανάγνωσης
Arabic PII detectionHebrew NERRTL text processingMENA GDPR complianceXLM-RoBERTa multilingual

Η Πρόκληση Γλώσσας RTL

Τα αραβικά και εβραϊκά χρησιμοποιούν σεναρισμό δεξιά-προς-αριστερά (RTL) — θεμελιωδώς διαφορετική δομή κειμένου από τις γλώσσες αριστερά-προς-δεξιά (LTR) που εκπαιδεύονται οι περισσότεροι NLP μηχανικοί. Τα μοντέλα NER εκπαιδευμένα σε αγγλικά, γερμανικά ή γαλλικά δεν αναγνωρίζουν αραβικά ή εβραϊκά ονόματα, οργανισμούς ή αναγνωριστικά.

Αραβικά Εθνικά Αναγνωριστικά

UAE Emirates ID: 15ψήφιο αναγνωριστικό. Μορφή: 784-YYYY-XXXXXXX-X (784=κωδικός χώρας, YYYY=έτος γέννησης, XXXXXXX=αριθμός σειράς, X=ψηφίο ελέγχου Luhn).

Σαουδικό Εθνικό Αναγνωριστικό: 10ψήφιο, αρχίζει πάντα με 1 (Σαουδάραβες πολίτες) ή 2 (ξένοι κάτοικοι).

Αιγυπτιακό Εθνικό Αναγνωριστικό: 14ψήφιο, κωδικοποιεί ημερομηνία γέννησης, κυβερνείο γέννησης, φύλο.

Εβραϊκά Αναγνωριστικά

Ισραηλινό Mispar Zehut (Αριθμός Ταυτότητας): 9ψήφιο με επικύρωση Luhn. Εμφανίζεται σε εβραϊκά και αγγλικά έγγραφα.

Τεχνικές Απαιτήσεις

Τα εργαλεία ανωνυμοποίησης συμβατά με MENA απαιτούν:

  • Επεξεργασία RTL: Σωστή κατεύθυνση κειμένου για αναγνωριστές χαρακτήρων αραβικής/εβραϊκής γραφής
  • Αραβική NER: spaCy ar_core_news_sm ή ισοδύναμο αραβικό μοντέλο
  • Εβραϊκή NER: Ξεχωριστό μοντέλο — το spaCy δεν έχει επίσημο εβραϊκό μοντέλο· χρειάζεται Ben-Gurion University Hebrew NLP

Πηγές:

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.