Πολύγλωσσο NER: Προκλήσεις στον Εντοπισμό PII
Ενημερωμένο για το 2026
Το Χάσμα Ακρίβειας
Τα μοντέλα NER εκπαιδευμένα στα αγγλικά φτάνουν 85–92% F1 σε τυπικές δοκιμές. Εφαρμόστε τα ίδια μοντέλα σε αραβικό ή κινεζικό κείμενο. Η ακρίβεια πέφτει στο 50–70%.
Για εργασίες PII, αυτό το χάσμα είναι πρόβλημα. Ένα ποσοστό επιτυχίας 70% σημαίνει ότι το 30% των ευαίσθητων δεδομένων μένει αόρατο.
Οι αιτίες δεν είναι σφάλματα. Προκύπτουν από το πώς διαφέρουν τα συστήματα γραφής.
Τέσσερις Βαθύτερες Αιτίες
1. Όρια Λέξεων
Τα αγγλικά χωρίζουν λέξεις με κενά. Η tokenization είναι εύκολη.
Τα κινεζικά δεν έχουν κενά καθόλου.
"张伟住在北京"
→ Πρώτα διαχωρισμός: ["张伟", "住在", "北京"]
Ένα μοντέλο δεν μπορεί να επισημάνει αυτό που δεν μπορεί να βρει. Ο διαχωρισμός πρέπει να γίνει πριν το NER.
Τα αραβικά συνδέουν γράμματα μέσα στη λέξη. Τα βραχέα φωνήεντα παραλείπονται. Το κείμενο διαβάζεται από δεξιά προς τα αριστερά.
"محمد يعيش في دبي"
→ Χωρίς βραχέα φωνήεντα, από δεξιά προς αριστερά, συνδεδεμένα γράμματα
2. Μορφολογία
Τα αγγλικά ρήματα αλλάζουν με λίγους τρόπους. Τα αραβικά χρησιμοποιούν σύστημα ριζών. Μια ρίζα δημιουργεί δεκάδες λέξεις.
كتب (k-t-b, «γράφω»)
→ كاتب (συγγραφέας), كتاب (βιβλίο), مكتبة (βιβλιοθήκη)
Το NER πρέπει να αναλύει ρίζες για να βρει ονόματα σε παράγωγες λεκτικές μορφές.
3. Συμβάσεις Ονομάτων
Τα λατινικά ονόματα έχουν σειρά Όνομα-Επώνυμο. Τα ονόματα σε RTL γλώσσες συνδυάζουν οικογενειακές σχέσεις.
محمد بن عبد الله
(Μωάμεθ γιος-του Αμπντουλάχ)
Τα κινεζικά ονόματα βάζουν πρώτο το οικογενειακό όνομα. Τα περισσότερα ονόματα έχουν δύο ή τρεις χαρακτήρες.
张伟 (Zhang Wei) — 2 χαρακτήρες
欧阳修 (Ouyang Xiu) — 3 χαρακτήρες
Ένα μοντέλο βασισμένο σε δυτικά μοτίβα ονομάτων θα χάνει αυτές τις δομές.
4. Κατεύθυνση Κειμένου
Μερικές γλώσσες διαβάζονται από δεξιά προς αριστερά. Όταν κείμενο RTL περιέχει αγγλικό όνομα, η οπτική σειρά και η λογική σειρά διαχωρίζονται. Αυτό ονομάζεται κείμενο BiDi. Απαιτεί προσεκτική ανάλυση.
Βαθμολογίες F1 ανά Σύστημα Γραφής
| Γλώσσα | Σύστημα Γραφής | Εύρος F1 | Επίπεδο |
|---|---|---|---|
| Αγγλικά | Λατινικό | 85–92% | Χαμηλό |
| Γερμανικά | Λατινικό | 82–88% | Χαμηλό |
| Γαλλικά | Λατινικό | 80–87% | Χαμηλό |
| Ισπανικά | Λατινικό | 81–86% | Χαμηλό |
| Ρωσικά | Κυριλλικό | 75–83% | Μέτριο |
| Αραβικά | Abjad | 55–75% | Υψηλό |
| Κινεζικά | Hanzi | 60–78% | Υψηλό |
| Ιαπωνικά | Μικτό | 65–80% | Υψηλό |
| Ταϊλανδέζικα | Ταϊλανδέζικο | 50–70% | Πολύ Υψηλό |
| Χίντι | Devanagari | 60–75% | Υψηλό |
Τα μη λατινικά συστήματα και τα κενά μεταξύ λέξεων μειώνουν τις βαθμολογίες παντού.
Λύση Τριών Επιπέδων
Χρησιμοποιούμε τρία επίπεδα για να καλύψουμε 48 γλώσσες και συστήματα γραφής.
Επίπεδο 1: spaCy — 25 Γλώσσες
Για γλώσσες με ισχυρά, δοκιμασμένα μοντέλα. Αυτό καλύπτει αγγλικά, γερμανικά, γαλλικά, ισπανικά, ιταλικά, πορτογαλικά, ολλανδικά, πολωνικά, ρωσικά και ελληνικά.
Επίπεδο 2: Stanza — Σύνθετες Γλώσσες
Το Stanford Stanza χειρίζεται αραβικά, κινεζικά, ιαπωνικά και κορεατικά. Εκτελεί διαχωρισμό λέξεων και ανάλυση ριζών πριν το NER.
Επίπεδο 3: XLM-RoBERTa — Γλώσσες Χαμηλών Πόρων
Για γλώσσες χωρίς αποκλειστικά μοντέλα. Ταϊλανδέζικα, βιετναμέζικα, χίντι, βεγγαλέζικα, εβραϊκά, τούρκικα και περσικά πηγαίνουν εδώ. Χειρίζεται μεικτό γλωσσικό κείμενο χωρίς ρητές σημαίες.
RTL και BiDi
Το κείμενο από δεξιά προς αριστερά χρειάζεται επιπλέον βήματα πέρα από τον διαχωρισμό.
Το pipeline μας:
- Κανονικοποιεί το κείμενο σε λογική σειρά.
- Εκτελεί NER σε αυτή τη σειρά.
- Αντιστοιχεί τις θέσεις οντοτήτων πίσω στην οπτική σειρά.
Αφαιρούμε τα συνημμένα προθέματα πριν το NER και τα προσθέτουμε πίσω μετά.
"محمد" — μόνο όνομα
"لمحمد" — «στον Μωάμεθ» (πρόθεμα ενεργό)
Εναλλαγή Γλώσσας (Code-Switching)
Τα πραγματικά έγγραφα συχνά αναμειγνύουν γλώσσες σε μία γραμμή.
"El meeting con John es at 3pm"
"我今天跟John去shopping"
Το pipeline μας χωρίζει κατά γλώσσα. Εκτελεί το κατάλληλο μοντέλο σε κάθε μέρος. Στη συνέχεια ενώνει τα αποτελέσματα με αντιστοίχιση θέσεων.
Εσωτερικά Benchmarks
Αποτελέσματα από εσωτερικές δοκιμές σε μεικτόγλωσσα δεδομένα:
| Σενάριο | F1 |
|---|---|
| Μόνο αγγλικά | 91% |
| Μόνο γερμανικά | 88% |
| Μόνο αραβικά | 79% |
| Μόνο κινεζικά | 81% |
| Μείγμα αγγλικών-αραβικών | 83% |
| Μείγμα αγγλικών-κινεζικών | 84% |
| Μείγμα αγγλικών-γερμανικών | 89% |
Σημειώσεις Εγκατάστασης
Η desktop εφαρμογή ανιχνεύει αυτόματα τη γλώσσα ανά έγγραφο. Για μεικτόγλωσσα αρχεία, επεξεργάζεται κάθε τμήμα με το κατάλληλο μοντέλο. Δεν απαιτείται χειροκίνητο βήμα.
Ορίστε τη γλώσσα στο API όταν τη γνωρίζετε:
{
"text": "محمد بن عبد الله",
"language": "ar"
}
Χρησιμοποιήστε αυτόματη ανίχνευση όταν δεν τη γνωρίζετε:
{
"text": "محمد بن عبد الله",
"language": "auto"
}
Τα προσαρμοσμένα μοτίβα πρέπει να καλύπτουν ψηφία ειδικά για τη γλώσσα:
# Λατινικός κωδικός εργαζόμενου
EMP-[0-9]{6}
# Αραβικός κωδικός εργαζόμενου (περιλαμβάνει αραβο-ινδικά ψηφία)
موظف-[٠-٩0-9]{6}
Δείτε την πλήρη λίστα οντοτήτων. Για ρύθμιση API, επισκεφθείτε τη σελίδα χαρακτηριστικών API. Ο οδηγός συμμόρφωσης GDPR εξηγεί πώς τα κενά εντοπισμού επηρεάζουν τη νομοθεσία προστασίας δεδομένων.
Το anonym.legal χρησιμοποιεί μια στοίβα NER τριών επιπέδων — spaCy, Stanza και XLM-RoBERTa — για να καλύψει 48 γλώσσες με συνεπή εντοπισμό PII.