Πολύγλωσση Ανίχνευση PII για το GDPR
Ενημερωμένο για το 2026
Το Κρυφό Χάσμα του GDPR
Το GDPR δεν έχει γλωσσική προτίμηση. Το Άρθρο 4(1) ορίζει τα «προσωπικά δεδομένα» χωρίς να αναφέρει τη γλώσσα εμφάνισής τους. Ένα γερμανικό Steuer-ID προστατεύεται εξίσου με έναν αμερικανικό Αριθμό Κοινωνικής Ασφάλισης. Ένα γαλλικό NIR ρυθμίζεται εξίσου με έναν βρετανικό αριθμό National Insurance.
Τα περισσότερα εργαλεία ανίχνευσης PII κατασκευάστηκαν μόνο για τα αγγλικά.
Έρευνα από το ACL 2024 διαπίστωσε ότι υβριδικά εργαλεία NLP φτάνουν βαθμολογίες F1 0,60–0,83 για ευρωπαϊκές γλώσσες. Εργαλεία μόνο για αγγλικά σκοράρουν κοντά στο μηδέν για μη αγγλικές εθνικές μορφές αναγνωριστικών. Το χάσμα είναι εκτενές. Ένα εργαλείο μπορεί να εντοπίζει το 95% των αγγλικών PII. Ωστόσο χάνει το 40–60% των γερμανικών, γαλλικών, πολωνικών ή ολλανδικών PII στο ίδιο αρχείο. Αυτό είναι σοβαρό πρόβλημα. Εκθέτει τις εταιρείες σε κίνδυνο.
Αυτό είναι ένα πραγματικό χάσμα GDPR. Αφορά σχεδόν κάθε παγκόσμια εταιρεία που χρησιμοποιεί εργαλεία επεξεργασίας με επίκεντρο τα αγγλικά. Δείτε τον οδηγό GDPR για περισσότερα.
Γιατί τα PII Είναι Τοπικά-Εξαρτώμενα
Η ανίχνευση PII έχει δύο μέρη.
Το πρώτο είναι σάρωση βάσει μοτίβων. Αυτό καλύπτει δομημένα αναγνωριστικά όπως αριθμοί φορολογικού μητρώου και μορφές τηλεφώνου.
Το δεύτερο είναι σάρωση βάσει NER. Αυτό καλύπτει οντότητες σε πλαίσιο όπως ονόματα και διευθύνσεις.
Και τα δύο μέρη εξαρτώνται από τη γλώσσα.
Τα Δομημένα Αναγνωριστικά Διαφέρουν ανά Χώρα
| Χώρα | Φορολογικό Αναγνωριστικό | Μορφή | Επικύρωση |
|---|---|---|---|
| Γερμανία | Steuer-ID | 11 ψηφία | Modulo-11 |
| Γαλλία | NIR | 15 ψηφία + κλειδί 2 ψηφίων | INSEE |
| Σουηδία | Personnummer | 10 ψηφία | Luhn |
| Πολωνία | PESEL | 11 ψηφία | Modulo-10 |
| Ολλανδία | BSN | 9 ψηφία | Elfproef |
| Ισπανία | DNI/NIE | 8 ψηφία + γράμμα | Modulo-23 |
| Ιταλία | Codice Fiscale | 16 χαρακτήρες | Προσαρμοσμένο άθροισμα ελέγχου |
Ένα αγγλικό regex για SSN (NNN-NN-NNNN) δεν θα ταιριάξει με καμία από αυτές τις μορφές. Κάθε μία χρειάζεται το δικό της regex. Κάθε μία χρειάζεται επίσης τη δική της λογική αθροίσματος ελέγχου.
Το NER Χρειάζεται Εγγενή Μοντέλα
Τα γερμανικά ονόματα διαφέρουν από τα αγγλικά. Το «Hans-Dieter Müller» είναι σαφές σε εγγενές γερμανικό μοντέλο. Ένα μοντέλο εκπαιδευμένο στα αγγλικά συχνά τα χάνει.
Τα ψευδώς θετικά είναι επίσης πρόβλημα. Το σύστημα παρακολούθησης ζητημάτων του Microsoft Presidio δείχνει γερμανικές λέξεις να ταξινομούνται λανθασμένα ως αγγλικά PII. Η λέξη «Null» (γερμανικά για «μηδέν») είναι ένα παράδειγμα. Προκαλεί ψευδείς αντιστοιχίσεις ονομάτων σε μοντέλα εκπαιδευμένα στα αγγλικά. Σε παραγωγική χρήση, τα ποσοστά σφάλματος φτάνουν 3 ψευδώς θετικά ανά πραγματική οντότητα (Alvaro et al., 2024).
Κανονιστικός Κίνδυνος
Οι ευρωπαϊκοί φορείς δεδομένων γνωρίζουν αυτό το πρόβλημα. Αρκετές εθνικές ΑΠΔ έχουν εκδώσει κατευθυντήριες γραμμές.
Γερμανική BfDI: Το Άρθρο 5(1)(στ) GDPR ισχύει για όλα τα αρχεία. Καλύπτει μη αγγλικά δεδομένα που επεξεργάζονται εργαλεία τρίτων.
Γαλλική CNIL: Η Ετήσια Έκθεση CNIL 2024 εξέφρασε ανησυχίες. Επεσήμανε εργαλεία ΤΝ που χειρίζονται γαλλικά αρχεία χωρίς σάρωση PII για τη γαλλική γλώσσα.
ΕΕ ΑΠΔ γενικά: Το Άρθρο 25 GDPR (Προστασία Δεδομένων από τον Σχεδιασμό) απαιτεί διασφαλίσεις κατάλληλες για τα πραγματικά επεξεργαζόμενα αρχεία. Αυτό περιλαμβάνει μη αγγλικά PII σε παγκόσμιες αναπτύξεις.
Ο κίνδυνος είναι σαφής. Μια εταιρεία μπορεί να δείξει 95% ανίχνευση PII σε αγγλικό περιεχόμενο σε έλεγχο GDPR. Αλλά εάν χειρίζεται επίσης γερμανικά, γαλλικά και πολωνικά αρχεία με το ίδιο εργαλείο, τα κενά θα εμφανιστούν. Οι ελεγκτές το παρατηρούν. Τα πρόστιμα μπορούν να ακολουθήσουν. Δείτε τη σελίδα ασφαλιστικών δικλείδων μας για το πώς αντιμετωπίζουμε αυτό.
Τριεπίπεδος Σχεδιασμός
Η έρευνα και η παραγωγική χρήση συμφωνούν σε έναν τριεπίπεδο υβριδικό σχεδιασμό ως καλύτερη προσέγγιση.
Επίπεδο 1: Εγγενή Μοντέλα spaCy
Το spaCy παρέχει εκπαιδευμένα μοντέλα για 25 γλώσσες. Αυτά περιλαμβάνουν γερμανικά, γαλλικά, ισπανικά, πορτογαλικά, ιταλικά, ολλανδικά, ρωσικά, κινεζικά, ιαπωνικά, κορεατικά και πολωνικά. Κάθε μοντέλο εκπαιδεύεται σε εγγενή κείμενα. Μαθαίνουν τη σύνταξη και τα μοτίβα οντοτήτων κάθε γλώσσας. Αυτό έχει σημασία. Η εγγενής εκπαίδευση σημαίνει καλύτερη ανάκληση και λιγότερα ψευδώς θετικά.
Για τα γερμανικά: το de_core_news_lg χειρίζεται σύνθετα ουσιαστικά και γερμανικά μοτίβα ονομάτων.
Για τα γαλλικά: το fr_core_news_lg χειρίζεται γαλλικές οντότητες, τίτλους, τοπωνύμια και οργανισμούς.
Τα εγγενή μοντέλα υπερτερούν των διαγλωσσικών για σάρωση ονομάτων σε γλώσσες υψηλών πόρων.
Επίπεδο 2: Stanza για Περισσότερες Γλώσσες
Η βιβλιοθήκη Stanza του Stanford καλύπτει γλώσσες που δεν υπάρχουν στο spaCy. Αυτές περιλαμβάνουν κροατικά, σλοβενικά και ουκρανικά. Αυτό προσθέτει εμβέλεια για ομάδες ομιλητών ΕΕ που το spaCy δεν εξυπηρετεί. Το Stanza είναι δωρεάν και ανοιχτού κώδικα. Ενσωματώνεται καλά με την υπόλοιπη στοίβα.
Επίπεδο 3: XLM-RoBERTa για Ευρεία Κάλυψη
Για γλώσσες όπου το spaCy και το Stanza δεν διαθέτουν μοντέλα NER, το XLM-RoBERTa καλύπτει το κενό. Εκπαιδεύεται σε κείμενα Common Crawl σε 100 γλώσσες. Επιτυγχάνει διαγλωσσικό F1 91,4% για ανίχνευση PII (HuggingFace 2024). Χειρίζεται καλά την εναλλαγή κωδίκων. Αυτό είναι βασικό χαρακτηριστικό. Έχει σημασία όταν ένα έγγραφο περιέχει κείμενο σε πολλές γλώσσες ταυτόχρονα.
Επισκεφθείτε τα έγγραφα συστήματος token για να δείτε πώς κλιμακώνονται οι κλήσεις API με πολύγλωσσο όγκο.
Τύποι Οντοτήτων Ανά Γλώσσα
Τα μοντέλα από μόνα τους δεν αρκούν. Η ευθυγράμμιση με το GDPR απαιτεί επίσης εύρος τύπων οντοτήτων για αναγνωριστικά συγκεκριμένης χώρας.
Εθνικά Αναγνωριστικά ΕΕ ανά χώρα:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Μορφές τηλεφώνου: Κάθε χώρα ΕΕ έχει μοναδικές δομές προθεμάτων. Τα +49, +33 και +48 χρειάζονται τη δική τους λογική επικύρωσης.
Μορφές διευθύνσεων: Οι ταχυδρομικοί κώδικες ποικίλλουν ευρέως. Το γερμανικό PLZ χρησιμοποιεί 5 ψηφία. Οι γαλλικοί κώδικες χρησιμοποιούν 5 ψηφία (εύρος 01–99). Οι βρετανικοί ταχυδρομικοί κώδικες είναι αλφαριθμητικοί. Οι ισπανικοί κώδικες χρησιμοποιούν 5 ψηφία (01000–52999).
Πραγματική Περίπτωση: Ελβετική Φαρμακευτική
Ελβετική εταιρεία επεξεργάζεται συμβόλαια εργασίας. Κάθε συμβόλαιο αναμιγνύει κείμενο στα γερμανικά, γαλλικά και αγγλικά. Η Ελβετία έχει τέσσερις επίσημες γλώσσες. Το εργαλείο τους ήταν ρυθμισμένο μόνο για τα γερμανικά. Έχανε όλα τα PII στα γαλλικά τμήματα.
Ένα συμβόλαιο για υπάλληλο με έδρα τη Γενεύη περιλάμβανε γαλλικό αριθμό AVS (13 ψηφία), ελβετικό IBAN τράπεζας και όνομα σε γαλλική μορφή. Το εργαλείο μόνο για γερμανικά έχασε το γαλλικής μορφής όνομα. Απέτυχε να βρει τον γαλλικό αριθμό AVS. Ανίχνευσε μόνο εν μέρει το IBAN.
Η τριεπίπεδη προσέγγιση επεξεργάζεται ολόκληρο το έγγραφο. Ανιχνεύει τη γλώσσα ανά τμήμα κειμένου. Εφαρμόζει το κατάλληλο μοντέλο NER για κάθε μέρος. Επικυρώνει κάθε εθνικό αναγνωριστικό με τη σωστή λογική χώρας.
Έγγραφα Μικτής Γλώσσας
Η πιο δύσκολη περίπτωση είναι η εντός εγγράφου ανάμιξη γλωσσών. Παραδείγματα:
- Αγγλικό συμβόλαιο γερμανικής εταιρείας με γερμανικά αρχεία υπαλλήλων (ονόματα, φορολογικά αναγνωριστικά)
- Γαλλική φόρμα συγκατάθεσης GDPR με αγγλικό απόσπασμα απορρήτου
- Συνομιλία όπου ο πράκτορας απαντά στα αγγλικά και ο πελάτης γράφει στα αραβικά
Το XLM-RoBERTa χειρίζεται αυτό εγγενώς. Δεν χρειάζεται ρητές σημαίες γλώσσας. Επεξεργάζεται κείμενο μικτής γλώσσας χωρίς προηγούμενη τμηματοποίηση. Αυτό εξοικονομεί χρόνο. Αποφεύγει επίσης σφάλματα από εσφαλμένες διαχωρίσεις.
Για παραγωγική χρήση, ο συνδυασμός αυτόματης ανίχνευσης γλώσσας (σε επίπεδο πρότασης) με συμπέρασμα XLM-RoBERTa παρέχει ισχυρή διαχείριση εγγράφων μικτής γλώσσας.
Πρακτικά Βήματα
Ελέγξτε την κάλυψη του εργαλείου σας. Ζητήστε από τον προμηθευτή επεξεργασίας βαθμολογίες F1 για τις συγκεκριμένες γλώσσες σας. «Υποστηρίζει 20 γλώσσες» συχνά σημαίνει ότι το εργαλείο δρομολογεί κείμενο μέσω μηχανικής μετάφρασης πρώτα. Αυτή δεν είναι εγγενής σάρωση.
Αντιστοιχίστε τα αρχεία σας σε γλώσσες. Κάντε απογραφή αρχείων που περιλαμβάνει κατανομή γλωσσών. Μια παγκόσμια εταιρεία με 70% αγγλικά, 20% γερμανικά και 10% γαλλικά αντιμετωπίζει διαφορετικούς κινδύνους. Μια με 95% αγγλικά βρίσκεται σε διαφορετική θέση.
Δοκιμάστε με δείγματα εθνικών αναγνωριστικών. Δημιουργήστε σύνολο δοκιμών με 10 παραδείγματα των εθνικών αναγνωριστικών στις δραστηριότητές σας — Steuer-ID, NIR, PESEL, BSN και άλλα. Επαληθεύστε τα ποσοστά ανίχνευσης. Αυτό είναι ταχύτερο από μια πλήρη δοκιμή F1.
Ελέγξτε τις DPIA σας. Ελέγξτε εάν περιλαμβάνεται η γλωσσική κάλυψη. Μια ελλιπής DPIA που υποθέτει μόνο αγγλικά αρχεία μπορεί να χρειαστεί ενημέρωση. Δράστε τώρα. Μην περιμένετε έναν έλεγχο να βρει το κενό.
Για πλήρεις ορισμούς τύπων οντοτήτων, δείτε την αναφορά οντοτήτων και τις Συχνές Ερωτήσεις. Για πλάνα και ρυθμούς κλήσεων API, επισκεφθείτε τις τιμές.
Η μηχανή ανίχνευσης PII του anonym.legal χρησιμοποιεί τριεπίπεδη πολύγλωσση προσέγγιση. Καλύπτει 25 γλώσσες υψηλών πόρων μέσω εγγενών μοντέλων spaCy. Το Stanza προσθέτει επιπλέον γλωσσική κάλυψη. Τα διαγλωσσικά μετασχηματιστές XLM-RoBERTa επεκτείνουν την εμβέλεια σε 48 γλώσσες. Συμπεριλαμβάνονται τύποι οντοτήτων για όλα τα κράτη μέλη της ΕΕ.