anonym.legal
Πίσω στο BlogΤεχνικά

Πολυγλωσσικό NER: Γιατί το Μοντέλο σας Εκπαιδευμένο...

Τα μοντέλα NER αγγλικών επιτυγχάνουν ακρίβεια 85-92%. Αραβικά και κινέζικα; Συχνά 50-70%.

February 26, 20268 λεπτά ανάγνωσης
NERmultilingualArabic NLPChinese NLPPII detection

Η Πολυγλωσσική Πρόκληση NER

Τα μοντέλα Αναγνώρισης Ονοματικών Οντοτήτων (NER) εκπαιδευμένα στα αγγλικά επιτυγχάνουν εντυπωσιακά αποτελέσματα—βαθμολογίες F1 85-92% σε τυπικά benchmark. Εφαρμόστε τα ίδια μοντέλα σε αραβικά ή κινέζικα; Η ακρίβεια συχνά πέφτει στο 50-70%.

Για την ανίχνευση PII, αυτό το χάσμα είναι κρίσιμο. Ένα ποσοστό ανίχνευσης 70% σημαίνει ότι το 30% των ευαίσθητων δεδομένων παραμένει απροστάτευτο.

Γιατί τα Μοντέλα Αγγλικών Αποτυγχάνουν

1. Όρια Λέξεων

Αγγλικά: Οι λέξεις χωρίζονται με κενά.

"John Smith lives in New York"
→ ["John", "Smith", "lives", "in", "New", "York"]

Κινέζικα: Χωρίς καθόλου όρια λέξεων.

"张伟住在北京"
→ Χρειάζεται πρώτα τεμαχισμός: ["张伟", "住在", "北京"]

Αραβικά: Οι λέξεις συνδέονται και τα βραχέα φωνήεντα δεν γράφονται.

"محمد يعيش في دبي"
→ Συνδεδεμένη γραφή, δεξιά-προς-αριστερά, παραλειπόμενα φωνήεντα

Οι κανόνες τεκμηρίωσης αγγλικών απλώς δεν ισχύουν.

2. Μορφολογική Πολυπλοκότητα

Αγγλική μορφολογία: Σχετικά απλή

Αραβική μορφολογία: Εξαιρετικά σύνθετη (σύστημα ρίζα-μοτίβο)

كتب (k-t-b, ρίζα "γράφω")
→ كاتب (συγγραφέας), كتاب (βιβλίο), مكتبة (βιβλιοθήκη), يكتب (γράφει)

Μία αραβική ρίζα παράγει δεκάδες σχετικές λέξεις. Τα μοντέλα NER πρέπει να κατανοούν αυτό το σύστημα παραγωγής.

3. Συμβάσεις Ονοματεπωνύμου

Αγγλικά ονόματα: Μικρό Επώνυμο

Αραβικά ονόματα: Πολλαπλά στοιχεία

محمد بن عبد الله بن عبد المطلب
(Μωάμεθ υιός του Αμπντουλλάχ υιός του Αμπντελμουτάλιμπ)

Κινέζικα ονόματα: Επώνυμο πρώτα, συχνά συνολικά 2-3 χαρακτήρες

张伟 (Zhang Wei) - 2 χαρακτήρες
欧阳修 (Ouyang Xiu) - 3 χαρακτήρες

4. Κατεύθυνση Γραφής

Αγγλικά: Αριστερά-προς-δεξιά (LTR) Αραβικά/Εβραϊκά: Δεξιά-προς-αριστερά (RTL) Μικτό κείμενο: Αμφίδρομο (BiDi) - εξαιρετικά σύνθετο

Ακρίβεια ανά Γλώσσα

ΓλώσσαΓραφήΕύρος F1Επίπεδο Πρόκλησης
ΑγγλικάΛατινικά85-92%Χαμηλό
ΓερμανικάΛατινικά82-88%Χαμηλό
ΓαλλικάΛατινικά80-87%Χαμηλό
ΙσπανικάΛατινικά81-86%Χαμηλό
ΡωσικάΚυριλλικά75-83%Μέτριο
ΑραβικάΑραβικά55-75%Υψηλό
ΚινέζικαHanzi60-78%Υψηλό
ΙαπωνικάΜικτά65-80%Υψηλό
ΤαϋλανδικάΤαϋλανδικά50-70%Πολύ Υψηλό
ΧίντιDevanagari60-75%Υψηλό

Η Τριεπίπεδη Προσέγγιση του anonym.legal

Επιλύουμε το πολυγλωσσικό NER μέσω τριών εξειδικευμένων επιπέδων:

Επίπεδο 1: spaCy (25 γλώσσες)

Για γλώσσες υψηλών πόρων με καλά μοντέλα:

  • Αγγλικά, Γερμανικά, Γαλλικά, Ισπανικά, Ιταλικά, Πορτογαλικά
  • Ολλανδικά, Πολωνικά, Ρωσικά, Ελληνικά
  • Και 15 ακόμα με αξιόπιστη ακρίβεια

Επίπεδο 2: Stanza (7 γλώσσες)

Για γλώσσες με σύνθετη μορφολογία:

  • Αραβικά (μορφολογία ρίζα-μοτίβο)
  • Κινέζικα (τεμαχισμός λέξεων)
  • Ιαπωνικά, Κορεατικά, Τάι
  • Και άλλες που χρειάζονται εξειδικευμένη επεξεργασία

Επίπεδο 3: Regex + Λεξικά (48 γλώσσες)

Για δομημένα αναγνωριστικά σε όλες τις γλώσσες:

  • Εθνικοί αριθμοί ταυτότητας
  • Μορφές τηλεφώνου
  • Μορφές φορολογικού αριθμού

Βέλτιστες Πρακτικές για Πολυγλωσσικό PII

  1. Δοκιμάστε σε πραγματικά πολυγλωσσικά δεδομένα - Ζητήστε βαθμολογίες F1 ανά γλώσσα
  2. Επικυρώστε εθνικά αναγνωριστικά - Απλά regex δεν επαρκούν
  3. Χειριστείτε κατεύθυνση κειμένου - Τα αμφίδρομα δεδομένα χρειάζονται ειδική επεξεργασία
  4. Δοκιμάστε μικτό γλωσσικό περιεχόμενο - Πολλά έγγραφα περιέχουν πολλαπλές γλώσσες

Προγράμματα ανίχνευσης PII που ισχυρίζονται πολυγλωσσική υποστήριξη πρέπει να αποδεικνύουν ακρίβεια ανά γλώσσα, όχι μόνο για τα αγγλικά.


Πηγές:

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.