anonym.legal

By · Last updated 2026-02-26

Πίσω στο BlogΤεχνικά

Πολύγλωσσο NER: Τα Αγγλικά Αποτυγχάνουν στα Αραβικά

Τα αγγλικά μοντέλα NER επιτυγχάνουν ακρίβεια 85-92%. Αραβικά και Κινεζικά; Συχνά 50-70%. Μάθετε για τις τεχνικές προκλήσεις και πώς να δημιουργήσετε πραγματικά πολύγλωσση κάλυψη.

February 26, 20268 λεπτά ανάγνωσης
NERmultilingualArabic NLPChinese NLPPII detection

Πολύγλωσσο NER: Προκλήσεις στον Εντοπισμό PII

Ενημερωμένο για το 2026

Το Χάσμα Ακρίβειας

Τα μοντέλα NER εκπαιδευμένα στα αγγλικά φτάνουν 85–92% F1 σε τυπικές δοκιμές. Εφαρμόστε τα ίδια μοντέλα σε αραβικό ή κινεζικό κείμενο. Η ακρίβεια πέφτει στο 50–70%.

Για εργασίες PII, αυτό το χάσμα είναι πρόβλημα. Ένα ποσοστό επιτυχίας 70% σημαίνει ότι το 30% των ευαίσθητων δεδομένων μένει αόρατο.

Οι αιτίες δεν είναι σφάλματα. Προκύπτουν από το πώς διαφέρουν τα συστήματα γραφής.

Τέσσερις Βαθύτερες Αιτίες

1. Όρια Λέξεων

Τα αγγλικά χωρίζουν λέξεις με κενά. Η tokenization είναι εύκολη.

Τα κινεζικά δεν έχουν κενά καθόλου.

"张伟住在北京"
→ Πρώτα διαχωρισμός: ["张伟", "住在", "北京"]

Ένα μοντέλο δεν μπορεί να επισημάνει αυτό που δεν μπορεί να βρει. Ο διαχωρισμός πρέπει να γίνει πριν το NER.

Τα αραβικά συνδέουν γράμματα μέσα στη λέξη. Τα βραχέα φωνήεντα παραλείπονται. Το κείμενο διαβάζεται από δεξιά προς τα αριστερά.

"محمد يعيش في دبي"
→ Χωρίς βραχέα φωνήεντα, από δεξιά προς αριστερά, συνδεδεμένα γράμματα

2. Μορφολογία

Τα αγγλικά ρήματα αλλάζουν με λίγους τρόπους. Τα αραβικά χρησιμοποιούν σύστημα ριζών. Μια ρίζα δημιουργεί δεκάδες λέξεις.

كتب (k-t-b, «γράφω»)
→ كاتب (συγγραφέας), كتاب (βιβλίο), مكتبة (βιβλιοθήκη)

Το NER πρέπει να αναλύει ρίζες για να βρει ονόματα σε παράγωγες λεκτικές μορφές.

3. Συμβάσεις Ονομάτων

Τα λατινικά ονόματα έχουν σειρά Όνομα-Επώνυμο. Τα ονόματα σε RTL γλώσσες συνδυάζουν οικογενειακές σχέσεις.

محمد بن عبد الله
(Μωάμεθ γιος-του Αμπντουλάχ)

Τα κινεζικά ονόματα βάζουν πρώτο το οικογενειακό όνομα. Τα περισσότερα ονόματα έχουν δύο ή τρεις χαρακτήρες.

张伟 (Zhang Wei) — 2 χαρακτήρες
欧阳修 (Ouyang Xiu) — 3 χαρακτήρες

Ένα μοντέλο βασισμένο σε δυτικά μοτίβα ονομάτων θα χάνει αυτές τις δομές.

4. Κατεύθυνση Κειμένου

Μερικές γλώσσες διαβάζονται από δεξιά προς αριστερά. Όταν κείμενο RTL περιέχει αγγλικό όνομα, η οπτική σειρά και η λογική σειρά διαχωρίζονται. Αυτό ονομάζεται κείμενο BiDi. Απαιτεί προσεκτική ανάλυση.

Βαθμολογίες F1 ανά Σύστημα Γραφής

ΓλώσσαΣύστημα ΓραφήςΕύρος F1Επίπεδο
ΑγγλικάΛατινικό85–92%Χαμηλό
ΓερμανικάΛατινικό82–88%Χαμηλό
ΓαλλικάΛατινικό80–87%Χαμηλό
ΙσπανικάΛατινικό81–86%Χαμηλό
ΡωσικάΚυριλλικό75–83%Μέτριο
ΑραβικάAbjad55–75%Υψηλό
ΚινεζικάHanzi60–78%Υψηλό
ΙαπωνικάΜικτό65–80%Υψηλό
ΤαϊλανδέζικαΤαϊλανδέζικο50–70%Πολύ Υψηλό
ΧίντιDevanagari60–75%Υψηλό

Τα μη λατινικά συστήματα και τα κενά μεταξύ λέξεων μειώνουν τις βαθμολογίες παντού.

Λύση Τριών Επιπέδων

Χρησιμοποιούμε τρία επίπεδα για να καλύψουμε 48 γλώσσες και συστήματα γραφής.

Επίπεδο 1: spaCy — 25 Γλώσσες

Για γλώσσες με ισχυρά, δοκιμασμένα μοντέλα. Αυτό καλύπτει αγγλικά, γερμανικά, γαλλικά, ισπανικά, ιταλικά, πορτογαλικά, ολλανδικά, πολωνικά, ρωσικά και ελληνικά.

Επίπεδο 2: Stanza — Σύνθετες Γλώσσες

Το Stanford Stanza χειρίζεται αραβικά, κινεζικά, ιαπωνικά και κορεατικά. Εκτελεί διαχωρισμό λέξεων και ανάλυση ριζών πριν το NER.

Επίπεδο 3: XLM-RoBERTa — Γλώσσες Χαμηλών Πόρων

Για γλώσσες χωρίς αποκλειστικά μοντέλα. Ταϊλανδέζικα, βιετναμέζικα, χίντι, βεγγαλέζικα, εβραϊκά, τούρκικα και περσικά πηγαίνουν εδώ. Χειρίζεται μεικτό γλωσσικό κείμενο χωρίς ρητές σημαίες.

RTL και BiDi

Το κείμενο από δεξιά προς αριστερά χρειάζεται επιπλέον βήματα πέρα από τον διαχωρισμό.

Το pipeline μας:

  1. Κανονικοποιεί το κείμενο σε λογική σειρά.
  2. Εκτελεί NER σε αυτή τη σειρά.
  3. Αντιστοιχεί τις θέσεις οντοτήτων πίσω στην οπτική σειρά.

Αφαιρούμε τα συνημμένα προθέματα πριν το NER και τα προσθέτουμε πίσω μετά.

"محمد"  — μόνο όνομα
"لمحمد" — «στον Μωάμεθ» (πρόθεμα ενεργό)

Εναλλαγή Γλώσσας (Code-Switching)

Τα πραγματικά έγγραφα συχνά αναμειγνύουν γλώσσες σε μία γραμμή.

"El meeting con John es at 3pm"
"我今天跟John去shopping"

Το pipeline μας χωρίζει κατά γλώσσα. Εκτελεί το κατάλληλο μοντέλο σε κάθε μέρος. Στη συνέχεια ενώνει τα αποτελέσματα με αντιστοίχιση θέσεων.

Εσωτερικά Benchmarks

Αποτελέσματα από εσωτερικές δοκιμές σε μεικτόγλωσσα δεδομένα:

ΣενάριοF1
Μόνο αγγλικά91%
Μόνο γερμανικά88%
Μόνο αραβικά79%
Μόνο κινεζικά81%
Μείγμα αγγλικών-αραβικών83%
Μείγμα αγγλικών-κινεζικών84%
Μείγμα αγγλικών-γερμανικών89%

Σημειώσεις Εγκατάστασης

Η desktop εφαρμογή ανιχνεύει αυτόματα τη γλώσσα ανά έγγραφο. Για μεικτόγλωσσα αρχεία, επεξεργάζεται κάθε τμήμα με το κατάλληλο μοντέλο. Δεν απαιτείται χειροκίνητο βήμα.

Ορίστε τη γλώσσα στο API όταν τη γνωρίζετε:

{
  "text": "محمد بن عبد الله",
  "language": "ar"
}

Χρησιμοποιήστε αυτόματη ανίχνευση όταν δεν τη γνωρίζετε:

{
  "text": "محمد بن عبد الله",
  "language": "auto"
}

Τα προσαρμοσμένα μοτίβα πρέπει να καλύπτουν ψηφία ειδικά για τη γλώσσα:

# Λατινικός κωδικός εργαζόμενου
EMP-[0-9]{6}

# Αραβικός κωδικός εργαζόμενου (περιλαμβάνει αραβο-ινδικά ψηφία)
موظف-[٠-٩0-9]{6}

Δείτε την πλήρη λίστα οντοτήτων. Για ρύθμιση API, επισκεφθείτε τη σελίδα χαρακτηριστικών API. Ο οδηγός συμμόρφωσης GDPR εξηγεί πώς τα κενά εντοπισμού επηρεάζουν τη νομοθεσία προστασίας δεδομένων.


Το anonym.legal χρησιμοποιεί μια στοίβα NER τριών επιπέδων — spaCy, Stanza και XLM-RoBERTa — για να καλύψει 48 γλώσσες με συνεπή εντοπισμό PII.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.