anonym.legal
Πίσω στο BlogGDPR & Συμμόρφωση

Γιατί το Εργαλείο Ανίχνευσης PII Σας Είναι...

Ένα γερμανικό Steuer-ID (11 ψηφία με άθροισμα ελέγχου) διαφέρει δομικά από το αμερικανικό SSN. Τα γαλλικά αριθμοί NIR έχουν 15 ψηφία.

March 20, 20268 λεπτά ανάγνωσης
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Το GDPR Δεν Έχει Γλωσσικές Προτιμήσεις

Ο Γενικός Κανονισμός Προστασίας Δεδομένων εφαρμόζεται εξίσου στα προσωπικά δεδομένα στα γερμανικά, γαλλικά, πολωνικά, σουηδικά, ισπανικά, ιταλικά και όλες τις άλλες γλώσσες που επεξεργάζονται οργανισμοί υπαγόμενοι στον Κανονισμό. Ένα αναγνωριστικό που δεν εντοπίστηκε σε γερμανικά δεδομένα πελατών δημιουργεί την ίδια κανονιστική έκθεση με ένα αναγνωριστικό που δεν εντοπίστηκε σε αγγλικά δεδομένα. Το GDPR δεν κάνει διάκριση ανά γλώσσα.

Τα περισσότερα εργαλεία ανίχνευσης PII το κάνουν.

Τα κυρίαρχα εμπορικά και ανοιχτού κώδικα εργαλεία ανίχνευσης PII δημιουργήθηκαν και αξιολογήθηκαν κυρίως σε αγγλικά κείμενα. Οι αναγνωριστές οντοτήτων τους το αντικατοπτρίζουν: αριθμοί κοινωνικής ασφάλισης ΗΠΑ, αμερικανικές άδειες οδήγησης, αμερικανικές μορφές διαβατηρίων και κοινά καθολικά αναγνωριστικά (διευθύνσεις email, τηλέφωνα σε μορφή NANP, αριθμοί πιστωτικών καρτών). Οι αναγνωριστές για μη αγγλόφωνα εθνικά αναγνωριστικά — όταν υπάρχουν — είναι συχνά λιγότερο ακριβείς, λιγότερο συντηρημένοι και πιο πιθανό να παράγουν ψευδώς αρνητικά αποτελέσματα.

Για επιχειρήσεις που δραστηριοποιούνται σε κράτη μέλη της ΕΕ, αυτό δημιουργεί ένα συστηματικό κενό συμμόρφωσης: το εργαλείο αναφέρει ότι το PII εντοπίστηκε και αφαιρέθηκε, αλλά τα μη αγγλόφωνα αναγνωριστικά που αντιπροσωπεύουν τη μεγαλύτερη έκθεση GDPR σε ορισμένες δικαιοδοσίες παραμένουν στα δεδομένα.

Η Δομική Διαφορά Μεταξύ Εθνικών Αναγνωριστικών

Το χάσμα μεταξύ αγγλοκεντρικών εργαλείων και πραγματικά πολύγλωσσων εργαλείων δεν αφορά την προσθήκη περισσότερων μοτίβων regex. Οι μορφές εθνικών αναγνωριστικών στα κράτη μέλη της ΕΕ διαφέρουν δομικά με τρόπους που απαιτούν γνώση ανά δικαιοδοσία για σωστή ανίχνευση.

Γερμανικό Steuer-Identifikationsnummer (Steuer-ID): 11ψήφιο αναγνωριστικό φόρου με αλγόριθμο ελέγχου αθροίσματος βασισμένο σε παραλλαγή του τύπου Luhn. Ένα γενικό regex SSN δεν θα ταιριάξει με αυτή τη μορφή. Ένα regex που ταιριάζει με οποιαδήποτε 11ψήφια αριθμητική συμβολοσειρά θα παράγει τεράστια ψευδώς θετικά σε γερμανικά οικονομικά έγγραφα.

Γαλλικό NIR (Numéro d'inscription au répertoire): 15ψήφιο αναγνωριστικό που ενσωματώνει το φύλο, το έτος γέννησης, τον μήνα γέννησης, τον κωδικό τμήματος ή χώρας γέννησης, τον αύξοντα αριθμό γέννησης και ένα 2ψήφιο κλειδί ελέγχου. Η ανίχνευση απαιτεί κατανόηση της δομής και επικύρωση του κλειδιού ελέγχου.

Σουηδικό Personnummer: 10ψήφιο αναγνωριστικό (μερικές φορές με δείκτη αιώνα που το κάνει 12 ψηφία) με ψηφίο ελέγχου Luhn. Η μορφή ποικίλει ανάλογα με την ηλικία: άτομα γεννημένα πριν από το 1990 χρησιμοποιούν διαχωριστικό + αντί για -, αλλάζοντας τη μορφή που πρέπει να ανιχνευθεί.

Πολωνικό PESEL: 11ψήφιο αναγνωριστικό που κωδικοποιεί την ημερομηνία γέννησης, το φύλο και ένα ψηφίο ελέγχου βασισμένο σε αλγόριθμο σταθμισμένου αθροίσματος. Η σωστή ανίχνευση απαιτεί τόσο αντιστοίχιση μορφής όσο και επικύρωση αθροίσματος ελέγχου.

Αυτά δεν είναι παραλλαγές μορφής ενός κοινού μοτίβου. Είναι δομικά διακριτά αναγνωριστικά με διαφορετικά μήκη, διαφορετικούς αλγορίθμους επαλήθευσης και διαφορετικά σχήματα θεσιακής κωδικοποίησης. Ένα μονόγλωσσο μοντέλο NER που εκπαιδεύτηκε σε αγγλικά κείμενα, αντιμετωπίζοντας ένα γαλλικό NIR σε κείμενο, δεν θα το αναγνωρίσει ως εθνικό αναγνωριστικό — είτε θα το αγνοήσει, είτε αν ταιριάζει με κάποιο άλλο μοτίβο, θα το ταξινομήσει λανθασμένα.

Πηγές:

  • Ρυθμιστική βάση GDPR: Κανονισμός (ΕΕ) 2016/679
  • Τεκμηρίωση ανιχνευτή Microsoft Presidio: github.com/microsoft/presidio

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.