Η Πρόκληση Γλώσσας RTL
Τα αραβικά και εβραϊκά χρησιμοποιούν σεναρισμό δεξιά-προς-αριστερά (RTL) — θεμελιωδώς διαφορετική δομή κειμένου από τις γλώσσες αριστερά-προς-δεξιά (LTR) που εκπαιδεύονται οι περισσότεροι NLP μηχανικοί. Τα μοντέλα NER εκπαιδευμένα σε αγγλικά, γερμανικά ή γαλλικά δεν αναγνωρίζουν αραβικά ή εβραϊκά ονόματα, οργανισμούς ή αναγνωριστικά.
Αραβικά Εθνικά Αναγνωριστικά
UAE Emirates ID: 15ψήφιο αναγνωριστικό. Μορφή: 784-YYYY-XXXXXXX-X (784=κωδικός χώρας, YYYY=έτος γέννησης, XXXXXXX=αριθμός σειράς, X=ψηφίο ελέγχου Luhn).
Σαουδικό Εθνικό Αναγνωριστικό: 10ψήφιο, αρχίζει πάντα με 1 (Σαουδάραβες πολίτες) ή 2 (ξένοι κάτοικοι).
Αιγυπτιακό Εθνικό Αναγνωριστικό: 14ψήφιο, κωδικοποιεί ημερομηνία γέννησης, κυβερνείο γέννησης, φύλο.
Εβραϊκά Αναγνωριστικά
Ισραηλινό Mispar Zehut (Αριθμός Ταυτότητας): 9ψήφιο με επικύρωση Luhn. Εμφανίζεται σε εβραϊκά και αγγλικά έγγραφα.
Τεχνικές Απαιτήσεις
Τα εργαλεία ανωνυμοποίησης συμβατά με MENA απαιτούν:
- Επεξεργασία RTL: Σωστή κατεύθυνση κειμένου για αναγνωριστές χαρακτήρων αραβικής/εβραϊκής γραφής
- Αραβική NER: spaCy ar_core_news_sm ή ισοδύναμο αραβικό μοντέλο
- Εβραϊκή NER: Ξεχωριστό μοντέλο — το spaCy δεν έχει επίσημο εβραϊκό μοντέλο· χρειάζεται Ben-Gurion University Hebrew NLP
Πηγές: