Πολύγλωσσο NER: Προκλήσεις στον Εντοπισμό PII

Ενημερωμένο για το 2026

Το Χάσμα Ακρίβειας

Τα μοντέλα NER εκπαιδευμένα στα αγγλικά φτάνουν 85–92% F1 σε τυπικές δοκιμές. Εφαρμόστε τα ίδια μοντέλα σε αραβικό ή κινεζικό κείμενο. Η ακρίβεια πέφτει στο 50–70%.

Για εργασίες PII, αυτό το χάσμα είναι πρόβλημα. Ένα ποσοστό επιτυχίας 70% σημαίνει ότι το 30% των ευαίσθητων δεδομένων μένει αόρατο.

Οι αιτίες δεν είναι σφάλματα. Προκύπτουν από το πώς διαφέρουν τα συστήματα γραφής.

Τέσσερις Βαθύτερες Αιτίες

1. Όρια Λέξεων

Τα αγγλικά χωρίζουν λέξεις με κενά. Η tokenization είναι εύκολη.

Τα κινεζικά δεν έχουν κενά καθόλου.

"张伟住在北京"
→ Πρώτα διαχωρισμός: ["张伟", "住在", "北京"]

Ένα μοντέλο δεν μπορεί να επισημάνει αυτό που δεν μπορεί να βρει. Ο διαχωρισμός πρέπει να γίνει πριν το NER.

Τα αραβικά συνδέουν γράμματα μέσα στη λέξη. Τα βραχέα φωνήεντα παραλείπονται. Το κείμενο διαβάζεται από δεξιά προς τα αριστερά.

"محمد يعيش في دبي"
→ Χωρίς βραχέα φωνήεντα, από δεξιά προς αριστερά, συνδεδεμένα γράμματα

2. Μορφολογία

Τα αγγλικά ρήματα αλλάζουν με λίγους τρόπους. Τα αραβικά χρησιμοποιούν σύστημα ριζών. Μια ρίζα δημιουργεί δεκάδες λέξεις.

كتب (k-t-b, «γράφω»)
→ كاتب (συγγραφέας), كتاب (βιβλίο), مكتبة (βιβλιοθήκη)

Το NER πρέπει να αναλύει ρίζες για να βρει ονόματα σε παράγωγες λεκτικές μορφές.

3. Συμβάσεις Ονομάτων

Τα λατινικά ονόματα έχουν σειρά Όνομα-Επώνυμο. Τα ονόματα σε RTL γλώσσες συνδυάζουν οικογενειακές σχέσεις.

محمد بن عبد الله
(Μωάμεθ γιος-του Αμπντουλάχ)

Τα κινεζικά ονόματα βάζουν πρώτο το οικογενειακό όνομα. Τα περισσότερα ονόματα έχουν δύο ή τρεις χαρακτήρες.

张伟 (Zhang Wei) — 2 χαρακτήρες
欧阳修 (Ouyang Xiu) — 3 χαρακτήρες

Ένα μοντέλο βασισμένο σε δυτικά μοτίβα ονομάτων θα χάνει αυτές τις δομές.

4. Κατεύθυνση Κειμένου

Μερικές γλώσσες διαβάζονται από δεξιά προς αριστερά. Όταν κείμενο RTL περιέχει αγγλικό όνομα, η οπτική σειρά και η λογική σειρά διαχωρίζονται. Αυτό ονομάζεται κείμενο BiDi. Απαιτεί προσεκτική ανάλυση.

Βαθμολογίες F1 ανά Σύστημα Γραφής

Γλώσσα	Σύστημα Γραφής	Εύρος F1	Επίπεδο
Αγγλικά	Λατινικό	85–92%	Χαμηλό
Γερμανικά	Λατινικό	82–88%	Χαμηλό
Γαλλικά	Λατινικό	80–87%	Χαμηλό
Ισπανικά	Λατινικό	81–86%	Χαμηλό
Ρωσικά	Κυριλλικό	75–83%	Μέτριο
Αραβικά	Abjad	55–75%	Υψηλό
Κινεζικά	Hanzi	60–78%	Υψηλό
Ιαπωνικά	Μικτό	65–80%	Υψηλό
Ταϊλανδέζικα	Ταϊλανδέζικο	50–70%	Πολύ Υψηλό
Χίντι	Devanagari	60–75%	Υψηλό

Τα μη λατινικά συστήματα και τα κενά μεταξύ λέξεων μειώνουν τις βαθμολογίες παντού.

Λύση Τριών Επιπέδων

Χρησιμοποιούμε τρία επίπεδα για να καλύψουμε 48 γλώσσες και συστήματα γραφής.

Επίπεδο 1: spaCy — 25 Γλώσσες

Για γλώσσες με ισχυρά, δοκιμασμένα μοντέλα. Αυτό καλύπτει αγγλικά, γερμανικά, γαλλικά, ισπανικά, ιταλικά, πορτογαλικά, ολλανδικά, πολωνικά, ρωσικά και ελληνικά.

Επίπεδο 2: Stanza — Σύνθετες Γλώσσες

Το Stanford Stanza χειρίζεται αραβικά, κινεζικά, ιαπωνικά και κορεατικά. Εκτελεί διαχωρισμό λέξεων και ανάλυση ριζών πριν το NER.

Επίπεδο 3: XLM-RoBERTa — Γλώσσες Χαμηλών Πόρων

Για γλώσσες χωρίς αποκλειστικά μοντέλα. Ταϊλανδέζικα, βιετναμέζικα, χίντι, βεγγαλέζικα, εβραϊκά, τούρκικα και περσικά πηγαίνουν εδώ. Χειρίζεται μεικτό γλωσσικό κείμενο χωρίς ρητές σημαίες.

RTL και BiDi

Το κείμενο από δεξιά προς αριστερά χρειάζεται επιπλέον βήματα πέρα από τον διαχωρισμό.

Το pipeline μας:

Κανονικοποιεί το κείμενο σε λογική σειρά.
Εκτελεί NER σε αυτή τη σειρά.
Αντιστοιχεί τις θέσεις οντοτήτων πίσω στην οπτική σειρά.

Αφαιρούμε τα συνημμένα προθέματα πριν το NER και τα προσθέτουμε πίσω μετά.

"محمد"  — μόνο όνομα
"لمحمد" — «στον Μωάμεθ» (πρόθεμα ενεργό)

Εναλλαγή Γλώσσας (Code-Switching)

Τα πραγματικά έγγραφα συχνά αναμειγνύουν γλώσσες σε μία γραμμή.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

Το pipeline μας χωρίζει κατά γλώσσα. Εκτελεί το κατάλληλο μοντέλο σε κάθε μέρος. Στη συνέχεια ενώνει τα αποτελέσματα με αντιστοίχιση θέσεων.

Εσωτερικά Benchmarks

Αποτελέσματα από εσωτερικές δοκιμές σε μεικτόγλωσσα δεδομένα:

Σενάριο	F1
Μόνο αγγλικά	91%
Μόνο γερμανικά	88%
Μόνο αραβικά	79%
Μόνο κινεζικά	81%
Μείγμα αγγλικών-αραβικών	83%
Μείγμα αγγλικών-κινεζικών	84%
Μείγμα αγγλικών-γερμανικών	89%

Σημειώσεις Εγκατάστασης

Η desktop εφαρμογή ανιχνεύει αυτόματα τη γλώσσα ανά έγγραφο. Για μεικτόγλωσσα αρχεία, επεξεργάζεται κάθε τμήμα με το κατάλληλο μοντέλο. Δεν απαιτείται χειροκίνητο βήμα.

Ορίστε τη γλώσσα στο API όταν τη γνωρίζετε:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

Χρησιμοποιήστε αυτόματη ανίχνευση όταν δεν τη γνωρίζετε:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

Τα προσαρμοσμένα μοτίβα πρέπει να καλύπτουν ψηφία ειδικά για τη γλώσσα:

# Λατινικός κωδικός εργαζόμενου
EMP-[0-9]{6}

# Αραβικός κωδικός εργαζόμενου (περιλαμβάνει αραβο-ινδικά ψηφία)
موظف-[٠-٩0-9]{6}

Δείτε την πλήρη λίστα οντοτήτων. Για ρύθμιση API, επισκεφθείτε τη σελίδα χαρακτηριστικών API. Ο οδηγός συμμόρφωσης GDPR εξηγεί πώς τα κενά εντοπισμού επηρεάζουν τη νομοθεσία προστασίας δεδομένων.

Το anonym.legal χρησιμοποιεί μια στοίβα NER τριών επιπέδων — spaCy, Stanza και XLM-RoBERTa — για να καλύψει 48 γλώσσες με συνεπή εντοπισμό PII.

Πηγές

Σχετικά Άρθρα

Τεχνικά

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

Ξεκινήστε Δωρεάν Δοκιμή Δείτε Χαρακτηριστικά

Πολύγλωσσο NER: Τα Αγγλικά Αποτυγχάνουν στα Αραβικά

Πολύγλωσσο NER: Προκλήσεις στον Εντοπισμό PII

Το Χάσμα Ακρίβειας

Τέσσερις Βαθύτερες Αιτίες

1. Όρια Λέξεων

2. Μορφολογία

3. Συμβάσεις Ονομάτων

4. Κατεύθυνση Κειμένου

Βαθμολογίες F1 ανά Σύστημα Γραφής

Λύση Τριών Επιπέδων

Επίπεδο 1: spaCy — 25 Γλώσσες

Επίπεδο 2: Stanza — Σύνθετες Γλώσσες

Επίπεδο 3: XLM-RoBERTa — Γλώσσες Χαμηλών Πόρων

RTL και BiDi

Εναλλαγή Γλώσσας (Code-Switching)

Εσωτερικά Benchmarks

Σημειώσεις Εγκατάστασης

Πηγές

Σχετικά Άρθρα

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Πολύγλωσσο NER: Τα Αγγλικά Αποτυγχάνουν στα Αραβικά

Πολύγλωσσο NER: Προκλήσεις στον Εντοπισμό PII

Το Χάσμα Ακρίβειας

Τέσσερις Βαθύτερες Αιτίες

1. Όρια Λέξεων

2. Μορφολογία

3. Συμβάσεις Ονομάτων

4. Κατεύθυνση Κειμένου

Βαθμολογίες F1 ανά Σύστημα Γραφής

Λύση Τριών Επιπέδων

Επίπεδο 1: spaCy — 25 Γλώσσες

Επίπεδο 2: Stanza — Σύνθετες Γλώσσες

Επίπεδο 3: XLM-RoBERTa — Γλώσσες Χαμηλών Πόρων

RTL και BiDi

Εναλλαγή Γλώσσας (Code-Switching)

Εσωτερικά Benchmarks

Σημειώσεις Εγκατάστασης

Πηγές

Σχετικά Άρθρα

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow