anonym.legal

By · Last updated 2026-03-03

Πίσω στο BlogGDPR & Συμμόρφωση

Πολύγλωσση Ανίχνευση PII για το GDPR

Ένα γερμανικό Steuer-ID, ένα γαλλικό NIR και ένα σουηδικό Personnummer απαιτούν διαφορετική λογική ανίχνευσης. Δείτε πώς να καλύψετε το χάσμα GDPR για μη αγγλικά δεδομένα.

March 3, 202610 λεπτά ανάγνωσης
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Πολύγλωσση Ανίχνευση PII για το GDPR

Ενημερωμένο για το 2026

Το Κρυφό Χάσμα του GDPR

Το GDPR δεν έχει γλωσσική προτίμηση. Το Άρθρο 4(1) ορίζει τα «προσωπικά δεδομένα» χωρίς να αναφέρει τη γλώσσα εμφάνισής τους. Ένα γερμανικό Steuer-ID προστατεύεται εξίσου με έναν αμερικανικό Αριθμό Κοινωνικής Ασφάλισης. Ένα γαλλικό NIR ρυθμίζεται εξίσου με έναν βρετανικό αριθμό National Insurance.

Τα περισσότερα εργαλεία ανίχνευσης PII κατασκευάστηκαν μόνο για τα αγγλικά.

Έρευνα από το ACL 2024 διαπίστωσε ότι υβριδικά εργαλεία NLP φτάνουν βαθμολογίες F1 0,60–0,83 για ευρωπαϊκές γλώσσες. Εργαλεία μόνο για αγγλικά σκοράρουν κοντά στο μηδέν για μη αγγλικές εθνικές μορφές αναγνωριστικών. Το χάσμα είναι εκτενές. Ένα εργαλείο μπορεί να εντοπίζει το 95% των αγγλικών PII. Ωστόσο χάνει το 40–60% των γερμανικών, γαλλικών, πολωνικών ή ολλανδικών PII στο ίδιο αρχείο. Αυτό είναι σοβαρό πρόβλημα. Εκθέτει τις εταιρείες σε κίνδυνο.

Αυτό είναι ένα πραγματικό χάσμα GDPR. Αφορά σχεδόν κάθε παγκόσμια εταιρεία που χρησιμοποιεί εργαλεία επεξεργασίας με επίκεντρο τα αγγλικά. Δείτε τον οδηγό GDPR για περισσότερα.

Γιατί τα PII Είναι Τοπικά-Εξαρτώμενα

Η ανίχνευση PII έχει δύο μέρη.

Το πρώτο είναι σάρωση βάσει μοτίβων. Αυτό καλύπτει δομημένα αναγνωριστικά όπως αριθμοί φορολογικού μητρώου και μορφές τηλεφώνου.

Το δεύτερο είναι σάρωση βάσει NER. Αυτό καλύπτει οντότητες σε πλαίσιο όπως ονόματα και διευθύνσεις.

Και τα δύο μέρη εξαρτώνται από τη γλώσσα.

Τα Δομημένα Αναγνωριστικά Διαφέρουν ανά Χώρα

ΧώραΦορολογικό ΑναγνωριστικόΜορφήΕπικύρωση
ΓερμανίαSteuer-ID11 ψηφίαModulo-11
ΓαλλίαNIR15 ψηφία + κλειδί 2 ψηφίωνINSEE
ΣουηδίαPersonnummer10 ψηφίαLuhn
ΠολωνίαPESEL11 ψηφίαModulo-10
ΟλλανδίαBSN9 ψηφίαElfproef
ΙσπανίαDNI/NIE8 ψηφία + γράμμαModulo-23
ΙταλίαCodice Fiscale16 χαρακτήρεςΠροσαρμοσμένο άθροισμα ελέγχου

Ένα αγγλικό regex για SSN (NNN-NN-NNNN) δεν θα ταιριάξει με καμία από αυτές τις μορφές. Κάθε μία χρειάζεται το δικό της regex. Κάθε μία χρειάζεται επίσης τη δική της λογική αθροίσματος ελέγχου.

Το NER Χρειάζεται Εγγενή Μοντέλα

Τα γερμανικά ονόματα διαφέρουν από τα αγγλικά. Το «Hans-Dieter Müller» είναι σαφές σε εγγενές γερμανικό μοντέλο. Ένα μοντέλο εκπαιδευμένο στα αγγλικά συχνά τα χάνει.

Τα ψευδώς θετικά είναι επίσης πρόβλημα. Το σύστημα παρακολούθησης ζητημάτων του Microsoft Presidio δείχνει γερμανικές λέξεις να ταξινομούνται λανθασμένα ως αγγλικά PII. Η λέξη «Null» (γερμανικά για «μηδέν») είναι ένα παράδειγμα. Προκαλεί ψευδείς αντιστοιχίσεις ονομάτων σε μοντέλα εκπαιδευμένα στα αγγλικά. Σε παραγωγική χρήση, τα ποσοστά σφάλματος φτάνουν 3 ψευδώς θετικά ανά πραγματική οντότητα (Alvaro et al., 2024).

Κανονιστικός Κίνδυνος

Οι ευρωπαϊκοί φορείς δεδομένων γνωρίζουν αυτό το πρόβλημα. Αρκετές εθνικές ΑΠΔ έχουν εκδώσει κατευθυντήριες γραμμές.

Γερμανική BfDI: Το Άρθρο 5(1)(στ) GDPR ισχύει για όλα τα αρχεία. Καλύπτει μη αγγλικά δεδομένα που επεξεργάζονται εργαλεία τρίτων.

Γαλλική CNIL: Η Ετήσια Έκθεση CNIL 2024 εξέφρασε ανησυχίες. Επεσήμανε εργαλεία ΤΝ που χειρίζονται γαλλικά αρχεία χωρίς σάρωση PII για τη γαλλική γλώσσα.

ΕΕ ΑΠΔ γενικά: Το Άρθρο 25 GDPR (Προστασία Δεδομένων από τον Σχεδιασμό) απαιτεί διασφαλίσεις κατάλληλες για τα πραγματικά επεξεργαζόμενα αρχεία. Αυτό περιλαμβάνει μη αγγλικά PII σε παγκόσμιες αναπτύξεις.

Ο κίνδυνος είναι σαφής. Μια εταιρεία μπορεί να δείξει 95% ανίχνευση PII σε αγγλικό περιεχόμενο σε έλεγχο GDPR. Αλλά εάν χειρίζεται επίσης γερμανικά, γαλλικά και πολωνικά αρχεία με το ίδιο εργαλείο, τα κενά θα εμφανιστούν. Οι ελεγκτές το παρατηρούν. Τα πρόστιμα μπορούν να ακολουθήσουν. Δείτε τη σελίδα ασφαλιστικών δικλείδων μας για το πώς αντιμετωπίζουμε αυτό.

Τριεπίπεδος Σχεδιασμός

Η έρευνα και η παραγωγική χρήση συμφωνούν σε έναν τριεπίπεδο υβριδικό σχεδιασμό ως καλύτερη προσέγγιση.

Επίπεδο 1: Εγγενή Μοντέλα spaCy

Το spaCy παρέχει εκπαιδευμένα μοντέλα για 25 γλώσσες. Αυτά περιλαμβάνουν γερμανικά, γαλλικά, ισπανικά, πορτογαλικά, ιταλικά, ολλανδικά, ρωσικά, κινεζικά, ιαπωνικά, κορεατικά και πολωνικά. Κάθε μοντέλο εκπαιδεύεται σε εγγενή κείμενα. Μαθαίνουν τη σύνταξη και τα μοτίβα οντοτήτων κάθε γλώσσας. Αυτό έχει σημασία. Η εγγενής εκπαίδευση σημαίνει καλύτερη ανάκληση και λιγότερα ψευδώς θετικά.

Για τα γερμανικά: το de_core_news_lg χειρίζεται σύνθετα ουσιαστικά και γερμανικά μοτίβα ονομάτων. Για τα γαλλικά: το fr_core_news_lg χειρίζεται γαλλικές οντότητες, τίτλους, τοπωνύμια και οργανισμούς.

Τα εγγενή μοντέλα υπερτερούν των διαγλωσσικών για σάρωση ονομάτων σε γλώσσες υψηλών πόρων.

Επίπεδο 2: Stanza για Περισσότερες Γλώσσες

Η βιβλιοθήκη Stanza του Stanford καλύπτει γλώσσες που δεν υπάρχουν στο spaCy. Αυτές περιλαμβάνουν κροατικά, σλοβενικά και ουκρανικά. Αυτό προσθέτει εμβέλεια για ομάδες ομιλητών ΕΕ που το spaCy δεν εξυπηρετεί. Το Stanza είναι δωρεάν και ανοιχτού κώδικα. Ενσωματώνεται καλά με την υπόλοιπη στοίβα.

Επίπεδο 3: XLM-RoBERTa για Ευρεία Κάλυψη

Για γλώσσες όπου το spaCy και το Stanza δεν διαθέτουν μοντέλα NER, το XLM-RoBERTa καλύπτει το κενό. Εκπαιδεύεται σε κείμενα Common Crawl σε 100 γλώσσες. Επιτυγχάνει διαγλωσσικό F1 91,4% για ανίχνευση PII (HuggingFace 2024). Χειρίζεται καλά την εναλλαγή κωδίκων. Αυτό είναι βασικό χαρακτηριστικό. Έχει σημασία όταν ένα έγγραφο περιέχει κείμενο σε πολλές γλώσσες ταυτόχρονα.

Επισκεφθείτε τα έγγραφα συστήματος token για να δείτε πώς κλιμακώνονται οι κλήσεις API με πολύγλωσσο όγκο.

Τύποι Οντοτήτων Ανά Γλώσσα

Τα μοντέλα από μόνα τους δεν αρκούν. Η ευθυγράμμιση με το GDPR απαιτεί επίσης εύρος τύπων οντοτήτων για αναγνωριστικά συγκεκριμένης χώρας.

Εθνικά Αναγνωριστικά ΕΕ ανά χώρα:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Μορφές τηλεφώνου: Κάθε χώρα ΕΕ έχει μοναδικές δομές προθεμάτων. Τα +49, +33 και +48 χρειάζονται τη δική τους λογική επικύρωσης.

Μορφές διευθύνσεων: Οι ταχυδρομικοί κώδικες ποικίλλουν ευρέως. Το γερμανικό PLZ χρησιμοποιεί 5 ψηφία. Οι γαλλικοί κώδικες χρησιμοποιούν 5 ψηφία (εύρος 01–99). Οι βρετανικοί ταχυδρομικοί κώδικες είναι αλφαριθμητικοί. Οι ισπανικοί κώδικες χρησιμοποιούν 5 ψηφία (01000–52999).

Πραγματική Περίπτωση: Ελβετική Φαρμακευτική

Ελβετική εταιρεία επεξεργάζεται συμβόλαια εργασίας. Κάθε συμβόλαιο αναμιγνύει κείμενο στα γερμανικά, γαλλικά και αγγλικά. Η Ελβετία έχει τέσσερις επίσημες γλώσσες. Το εργαλείο τους ήταν ρυθμισμένο μόνο για τα γερμανικά. Έχανε όλα τα PII στα γαλλικά τμήματα.

Ένα συμβόλαιο για υπάλληλο με έδρα τη Γενεύη περιλάμβανε γαλλικό αριθμό AVS (13 ψηφία), ελβετικό IBAN τράπεζας και όνομα σε γαλλική μορφή. Το εργαλείο μόνο για γερμανικά έχασε το γαλλικής μορφής όνομα. Απέτυχε να βρει τον γαλλικό αριθμό AVS. Ανίχνευσε μόνο εν μέρει το IBAN.

Η τριεπίπεδη προσέγγιση επεξεργάζεται ολόκληρο το έγγραφο. Ανιχνεύει τη γλώσσα ανά τμήμα κειμένου. Εφαρμόζει το κατάλληλο μοντέλο NER για κάθε μέρος. Επικυρώνει κάθε εθνικό αναγνωριστικό με τη σωστή λογική χώρας.

Έγγραφα Μικτής Γλώσσας

Η πιο δύσκολη περίπτωση είναι η εντός εγγράφου ανάμιξη γλωσσών. Παραδείγματα:

  • Αγγλικό συμβόλαιο γερμανικής εταιρείας με γερμανικά αρχεία υπαλλήλων (ονόματα, φορολογικά αναγνωριστικά)
  • Γαλλική φόρμα συγκατάθεσης GDPR με αγγλικό απόσπασμα απορρήτου
  • Συνομιλία όπου ο πράκτορας απαντά στα αγγλικά και ο πελάτης γράφει στα αραβικά

Το XLM-RoBERTa χειρίζεται αυτό εγγενώς. Δεν χρειάζεται ρητές σημαίες γλώσσας. Επεξεργάζεται κείμενο μικτής γλώσσας χωρίς προηγούμενη τμηματοποίηση. Αυτό εξοικονομεί χρόνο. Αποφεύγει επίσης σφάλματα από εσφαλμένες διαχωρίσεις.

Για παραγωγική χρήση, ο συνδυασμός αυτόματης ανίχνευσης γλώσσας (σε επίπεδο πρότασης) με συμπέρασμα XLM-RoBERTa παρέχει ισχυρή διαχείριση εγγράφων μικτής γλώσσας.

Πρακτικά Βήματα

Ελέγξτε την κάλυψη του εργαλείου σας. Ζητήστε από τον προμηθευτή επεξεργασίας βαθμολογίες F1 για τις συγκεκριμένες γλώσσες σας. «Υποστηρίζει 20 γλώσσες» συχνά σημαίνει ότι το εργαλείο δρομολογεί κείμενο μέσω μηχανικής μετάφρασης πρώτα. Αυτή δεν είναι εγγενής σάρωση.

Αντιστοιχίστε τα αρχεία σας σε γλώσσες. Κάντε απογραφή αρχείων που περιλαμβάνει κατανομή γλωσσών. Μια παγκόσμια εταιρεία με 70% αγγλικά, 20% γερμανικά και 10% γαλλικά αντιμετωπίζει διαφορετικούς κινδύνους. Μια με 95% αγγλικά βρίσκεται σε διαφορετική θέση.

Δοκιμάστε με δείγματα εθνικών αναγνωριστικών. Δημιουργήστε σύνολο δοκιμών με 10 παραδείγματα των εθνικών αναγνωριστικών στις δραστηριότητές σας — Steuer-ID, NIR, PESEL, BSN και άλλα. Επαληθεύστε τα ποσοστά ανίχνευσης. Αυτό είναι ταχύτερο από μια πλήρη δοκιμή F1.

Ελέγξτε τις DPIA σας. Ελέγξτε εάν περιλαμβάνεται η γλωσσική κάλυψη. Μια ελλιπής DPIA που υποθέτει μόνο αγγλικά αρχεία μπορεί να χρειαστεί ενημέρωση. Δράστε τώρα. Μην περιμένετε έναν έλεγχο να βρει το κενό.

Για πλήρεις ορισμούς τύπων οντοτήτων, δείτε την αναφορά οντοτήτων και τις Συχνές Ερωτήσεις. Για πλάνα και ρυθμούς κλήσεων API, επισκεφθείτε τις τιμές.


Η μηχανή ανίχνευσης PII του anonym.legal χρησιμοποιεί τριεπίπεδη πολύγλωσση προσέγγιση. Καλύπτει 25 γλώσσες υψηλών πόρων μέσω εγγενών μοντέλων spaCy. Το Stanza προσθέτει επιπλέον γλωσσική κάλυψη. Τα διαγλωσσικά μετασχηματιστές XLM-RoBERTa επεκτείνουν την εμβέλεια σε 48 γλώσσες. Συμπεριλαμβάνονται τύποι οντοτήτων για όλα τα κράτη μέλη της ΕΕ.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.