anonym.legal

By · Last updated 2026-03-20

Πίσω στο BlogGDPR & Συμμόρφωση

Εργαλεία PII μόνο για αγγλικά: το κενό GDPR

Ένα γερμανικό Steuer-ID (11 ψηφία με άθροισμα ελέγχου) είναι δομικά διαφορετικό από ένα αμερικανικό SSN. Οι γαλλικοί αριθμοί NIR έχουν 15 ψηφία. Το πολωνικό PESEL και το σουηδικό Personnummer ακολουθούν τη δική τους λογική.

March 20, 20268 λεπτά ανάγνωσης
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Εργαλεία PII μόνο για αγγλικά: το κενό GDPR

Ο GDPR δεν έχει γλωσσικές προτιμήσεις

Ο GDPR καλύπτει προσωπικά δεδομένα σε οποιαδήποτε γλώσσα. Γερμανικά, γαλλικά, πολωνικά, σουηδικά — όλα καλύπτονται εξίσου. Ένα χαμένο Steuer-ID δημιουργεί τον ίδιο νομικό κίνδυνο με έναν μη εντοπισμένο αμερικανικό αριθμό κοινωνικής ασφάλισης. Ο κανονισμός δεν κάνει γλωσσικές διακρίσεις.

Τα περισσότερα εργαλεία εντοπισμού PII, ωστόσο, το κάνουν.

Τα πιο διαδεδομένα εμπορικά και ανοιχτού κώδικα εργαλεία αναπτύχθηκαν για αγγλικά κείμενα. Οι ανιχνευτές οντοτήτων τους αντικατοπτρίζουν αυτή την επιλογή. Καλύπτουν καλά τους αμερικανικούς αριθμούς κοινωνικής ασφάλισης, τις αμερικανικές άδειες οδήγησης και τις μορφές τηλεφώνου NANP. Οι ανιχνευτές για μη αγγλόφωνους εθνικούς κωδικούς αναγνώρισης είναι λιγότερο ακριβείς, λιγότερο ενημερωμένοι και χάνουν πιο συχνά τους πραγματικούς αναγνωριστικούς αριθμούς.

Για εταιρείες που δραστηριοποιούνται στα κράτη μέλη της ΕΕ, αυτό δημιουργεί ένα κενό κάλυψης. Το εργαλείο αναφέρει ότι η ανωνυμοποίηση PII έχει ολοκληρωθεί. Αλλά οι μη αγγλόφωνοι αναγνωριστικοί αριθμοί παραμένουν στα δεδομένα — συχνά αυτοί με τη μεγαλύτερη έκθεση στον GDPR σε ορισμένες χώρες.

Οι αρχές ελέγχου δεδομένων το γνωρίζουν. Οι ελεγκτές το αναζητούν. Ένα εργαλείο μπορεί να λειτουργεί καλά σε αγγλικές εγγραφές, αλλά αν αποτυγχάνει σε γερμανικές ή γαλλικές εγγραφές, δεν συμμορφώνεται. Μια θετική αναφορά δεν αλλάζει αυτό το γεγονός.

Οι εθνικοί κωδικοί διαφέρουν δομικά

Το κενό μεταξύ εργαλείων με επίκεντρο τα αγγλικά και πολύγλωσσων εργαλείων δεν αφορά την προσθήκη επιπλέον μοτίβων regex. Οι ευρωπαϊκοί εθνικοί αναγνωριστικοί αριθμοί είναι πολύ διαφορετικοί μεταξύ τους και απαιτούν συγκεκριμένη λογική ανά χώρα για σωστό εντοπισμό.

Γερμανικός Steuer-Identifikationsnummer (Steuer-ID): 11 ψηφία. Χρησιμοποιεί άθροισμα ελέγχου βασισμένο σε παραλλαγή του τύπου Luhn. Ένα γενικό regex για SSN δεν θα το εντοπίσει. Ένα regex για οποιονδήποτε αριθμό 11 ψηφίων δημιουργεί πάρα πολλά ψευδώς θετικά σε γερμανικά έγγραφα.

Γαλλικό NIR (Numéro d'inscription au répertoire): 15 ψηφία. Η μορφή κωδικοποιεί φύλο, έτος γέννησης, μήνα γέννησης και τμήμα γέννησης. Περιλαμβάνει επίσης σειρά γέννησης και κλειδί ελέγχου 2 ψηφίων. Το κλειδί ελέγχου πρέπει να επικυρωθεί για σωστό εντοπισμό.

Σουηδικό Personnummer: 10 ψηφία με ένα ψηφίο ελέγχου Luhn. Άτομα που γεννήθηκαν πριν το 1990 χρησιμοποιούν το διαχωριστικό + αντί για -. Αυτό τροποποιεί τη μορφή προς εντοπισμό.

Πολωνικό PESEL: 11 ψηφία. Κωδικοποιεί ημερομηνία γέννησης, φύλο και ένα ψηφίο ελέγχου βασισμένο σε σταθμισμένα αθροίσματα. Ο σωστός εντοπισμός απαιτεί τόσο αντιστοίχιση μορφής όσο και επικύρωση αθροίσματος ελέγχου.

Δεν πρόκειται για παραλλαγές ενός κοινού μοτίβου. Το καθένα έχει διαφορετικό μήκος, χρησιμοποιεί διαφορετική μέθοδο επαλήθευσης και κωδικοποιεί δεδομένα σε διαφορετικό σχήμα θέσης. Ένα μοντέλο NER εκπαιδευμένο σε αγγλικά που συναντά ένα γαλλικό NIR δεν θα το αναγνωρίσει ως εθνικό αναγνωριστικό αριθμό: θα το αγνοήσει ή θα το ταξινομήσει λανθασμένα.

Ο πρακτικός κίνδυνος συμμόρφωσης

Φανταστείτε έναν υπεύθυνο συμμόρφωσης σε ένα ευρωπαϊκό BPO που επεξεργάζεται ταυτόχρονα δεδομένα από Γερμανία, Γαλλία, Πολωνία και Ολλανδία. Το εργαλείο αναφέρει ολοκληρωμένη ανωνυμοποίηση PII.

Αλλά το αποτέλεσμα δεν είναι πλήρες. Τα Steuer-ID στις γερμανικές εγγραφές παραμένουν. Οι αριθμοί NIR στις γαλλικές εγγραφές παραμένουν. Τα PESEL στις πολωνικές εγγραφές παραμένουν. Οι ανιχνευτές του εργαλείου για αυτές τις μορφές απουσιάζουν ή είναι πολύ ανακριβείς.

Εν συνεχεία, το σύνολο δεδομένων μεταδίδεται για ανάλυση ή σε συνεργάτη έρευνας. Τα δεδομένα εξακολουθούν να περιέχουν επαναναγνωρίσιμους εθνικούς αναγνωριστικούς αριθμούς. Το πρόβλημα GDPR δεν εμφανίζεται στα αρχεία καταγραφής του εργαλείου. Εμφανίζεται όταν φτάσει ένα αίτημα πρόσβασης υποκειμένου δεδομένων (DSAR), κατά τη διάρκεια ελέγχου από εποπτική αρχή ή μετά από παραβίαση δεδομένων.

Έρευνες που συγκρίνουν υβριδικές πολύγλωσσες προσεγγίσεις με εργαλεία επικεντρωμένα στα αγγλικά έχουν παράγει σαφή αποτελέσματα. Οι υβριδικές μέθοδοι επιτυγχάνουν βαθμολογίες F1 από 0,60 έως 0,83 σε ευρωπαϊκά πλαίσια. Τα εργαλεία μόνο για αγγλικά πλησιάζουν το μηδέν για μη αγγλόφωνες μορφές εθνικών κωδικών.

Δείτε την επισκόπηση συμμόρφωσης GDPR για να δείτε πώς αυτά τα κενά μεταφράζονται σε υποχρεώσεις GDPR.

Τι απαιτεί η πλήρης κάλυψη

Ο πολύγλωσσος εντοπισμός PII για συμμόρφωση GDPR απαιτεί τρία επίπεδα.

Μοντέλα spaCy ανά γλώσσα παρέχουν σημασιολογική κατανόηση στη γλώσσα του κειμένου. Ένα μοντέλο εκπαιδευμένο σε γερμανικά κείμενα γνωρίζει ότι «Müller» είναι ένα κοινό γερμανικό επώνυμο. Υπάρχουν μοντέλα για 25 ευρωπαϊκές γλώσσες υψηλής χρήσης.

Τα μοντέλα NLP Stanza επεκτείνουν την κάλυψη σε γλώσσες που δεν υπάρχουν στο spaCy, διευρύνοντας την εμβέλεια για επιπλέον ευρωπαϊκές γλωσσικές κοινότητες.

Τα διαγλωσσικά μοντέλα transformer (XLM-RoBERTa) χειρίζονται τις διαγλωσσικές περιπτώσεις. Ένα όνομα σε μια γαλλική πρόταση αναγνωρίζεται ως όνομα προσώπου, ακόμα και αν ο κινητήρας δεν έχει εκπαιδευτεί σε αυτό το συγκεκριμένο όνομα.

Regex με επικύρωση ανά χώρα καλύπτει δομημένους εθνικούς αναγνωριστικούς αριθμούς. Το Steuer-ID, το NIR, το PESEL και το Personnummer χρειάζονται το καθένα τη δική του λογική αθροίσματος ελέγχου. Αυτό μειώνει τα ψευδώς θετικά: ακολουθίες ψηφίων που δεν περνούν τους κανόνες επικύρωσης της χώρας φιλτράρονται.

Το κενό είναι δομικό. Η προσθήκη λιστών λέξεων ή επιπλέον μοτίβων regex προσφέρει μόνο οριακές βελτιώσεις. Η ενσωμάτωση κάλυψης ευρωπαϊκών αναγνωριστικών αριθμών από την αρχή είναι η μόνη αξιόπιστη προσέγγιση.

Ελέγξτε το τρέχον εργαλείο σας

Ζητήστε από τον πάροχό σας βαθμολογίες F1 σε γερμανικές, γαλλικές, πολωνικές και ολλανδικές εγγραφές. Το «υποστηρίζει πολλές γλώσσες» συχνά σημαίνει ότι το εργαλείο χρησιμοποιεί πρώτα μετάφραση. Αυτό δεν ισοδυναμεί με εγγενή σάρωση. Η συμμόρφωση GDPR απαιτεί εγγενή σάρωση.

Εκτελέστε δοκιμές με πραγματικά δείγματα εθνικών κωδικών. Δημιουργήστε ένα σύντομο σύνολο δοκιμών με 10 παραδείγματα για κάθε τύπο αναγνωριστικού που υπάρχει στις λειτουργίες σας — Steuer-ID, NIR, PESEL, Personnummer — και επαληθεύστε τα ποσοστά εντοπισμού. Είναι ταχύτερο από μια πλήρη δοκιμή F1 και αποκαλύπτει γρήγορα τα κενά.

Δείτε τη σελίδα ασφαλείας και συμμόρφωσης για το πώς το anonym.legal ικανοποιεί αυτές τις απαιτήσεις. Για ορισμούς τύπων οντοτήτων, επισκεφθείτε την αναφορά οντοτήτων.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.