LGPD Βραζιλία: CPF, CNPJ και Προστασία Δεδομένων
Ο βραζιλιάνικος νόμος Lei Geral de Proteção de Dados (LGPD) καλύπτει 215 εκατομμύρια ανθρώπους. Είναι ο τρίτος μεγαλύτερος νόμος προστασίας δεδομένων στον κόσμο βάσει πληθυσμού. Καλύπτει περισσότερους ανθρώπους από τη Γερμανία, τη Γαλλία και το Ηνωμένο Βασίλειο μαζί. Η Autoridade Nacional de Proteção de Dados (ANPD) εξέδωσε τα πρώτα σημαντικά πρόστιμά της το 2024. Η περίοδος χάριτος μετά την ψήφιση του LGPD το 2020 έχει λήξει.
Υπάρχει επίσης μια τεχνική πρόκληση. Τα έγγραφα LGPD είναι στα βραζιλιάνικα Πορτογαλικά. Τα εθνικά αναγνωριστικά στη Βραζιλία διαφέρουν από αυτά της Πορτογαλίας. Διαφέρουν επίσης από τα αναγνωριστικά οποιασδήποτε άλλης χώρας.
Γιατί τα Βραζιλιάνικα PII Είναι Διαφορετικά
Τα ομοσπονδιακά και πολιτειακά συστήματα αναγνωριστικών της Βραζιλίας αποκλίνουν από τα ευρωπαϊκά ψηφιακά συστήματα ταυτότητας. Αυτό δημιούργησε ένα μοναδικό σύνολο αναγνωριστικών. Τα περισσότερα εργαλεία NLP εκπαιδεύονται σε αγγλικά ή ευρωπαϊκά δεδομένα. Αποτυγχάνουν να εντοπίσουν τοπικά αναγνωριστικά.
CPF (Cadastro de Pessoas Físicas): Ο 11ψήφιος αριθμός φορολογουμένου. Μορφή: XXX.XXX.XXX-XX. Έχει δύο ψηφία ελέγχου. Ο τύπος χρησιμοποιεί δύο ξεχωριστά μαθηματικά βήματα. Και τα δύο πρέπει να ταιριάζουν για να είναι έγκυρο το CPF.
Το κενό ανίχνευσης είναι μεγάλο. Εργαλεία NLP εκπαιδευμένα στα αγγλικά ανιχνεύουν το CPF με μόλις 45% ακρίβεια (ANPD, 2024). Δύο αιτίες εξηγούν αυτό. Πρώτον, εργαλεία που αντιστοιχίζουν 11ψήφιους αριθμούς χωρίς τη λογική δύο βημάτων ψηφίου ελέγχου μπερδεύουν έγκυρους αριθμούς CPF με τυχαίες ακολουθίες. Δεύτερον, το CPF ενίοτε δεν έχει τη μορφή XXX.XXX.XXX-XX. Αυτό συμβαίνει σε εξόδους OCR και απλές φόρμες κειμένου.
CNPJ (Cadastro Nacional da Pessoa Jurídica): Ο 14ψήφιος αριθμός εταιρείας. Μορφή: XX.XXX.XXX/XXXX-XX. Έχει επίσης δύο ψηφία ελέγχου. Ο τύπος είναι παρόμοιος με το CPF αλλά όχι ίδιος.
RG (Registro Geral): Η πολιτειακή αστική ταυτότητα. Η μορφή διαφέρει ανά πολιτεία. Το Σάο Πάολο χρησιμοποιεί 2 γράμματα και 5–9 ψηφία. Το Ρίο ντε Τζανέιρο χρησιμοποιεί 7–8 ψηφία με παύλα. Το Μίνας Γκεράις χρησιμοποιεί 7–9 ψηφία. Άλλες πολιτείες έχουν τις δικές τους μορφές. Ένα εργαλείο που γνωρίζει μόνο τη μορφή μιας πολιτείας θα χάσει τους περισσότερους αριθμούς RG.
CNH (Carteira Nacional de Habilitação): Ο 11ψήφιος αριθμός διπλώματος οδήγησης. Έχει ένα ψηφίο ελέγχου. Η μορφή περιλαμβάνει κωδικό περιφέρειας.
Título de Eleitor: Ο 12ψήφιος αριθμός εκλογικής ταυτότητας. Έχει τρία μέρη: ένας 8ψήφιος κωδικός αναγνωριστικού, ένας 2ψήφιος κωδικός πολιτείας και 2 ψηφία ελέγχου.
Αριθμός SUS (Cartão SUS): Το 15ψήφιο αναγνωριστικό δημόσιας υγείας. Κάθε άτομο στη χώρα λαμβάνει ένα. Εμφανίζεται σε όλα τα αρχεία νοσοκομείων και κλινικών.
PIS/PASEP: Ο 11ψήφιος αριθμός κοινωνικού προγράμματος. Εμφανίζεται σε κάθε αρχείο απασχόλησης.
Πρότυπο Ανωνυμοποίησης LGPD
Το Άρθρο 12 του LGPD ορίζει τα ανώνυμα δεδομένα. Το πρότυπο: δεδομένα «που δεν μπορούν να αναγνωριστούν, λαμβάνοντας υπόψη εύλογα τεχνικά μέσα κατά τη στιγμή της επεξεργασίας». Αυτό είναι ένα πρότυπο σχετικό με την τεχνολογία. Τα σημερινά ανώνυμα δεδομένα μπορεί να μην παραμείνουν τέτοια καθώς βελτιώνονται οι μέθοδοι επαναταυτοποίησης.
Η ANPD παρέχει επιπλέον οδηγίες. Η αφαίρεση άμεσων αναγνωριστικών όπως CPF και ονόματος δεν αρκεί. Ομάδες έμμεσων αναγνωριστικών μπορούν να επιτρέψουν επαναταυτοποίηση. Εύρος ηλικίας, πόλη, φύλο και επάγγελμα μαζί μπορεί να ταυτοποιήσουν ένα πρόσωπο. Αυτά πρέπει να αντιμετωπιστούν με ομαδοποίηση ή προσθήκη θορύβου.
Για δεδομένα εκπαίδευσης ΤΝ, η ANPD απαιτεί μία από τρεις προϋποθέσεις. Πρώτη: τα δεδομένα πληρούν το πρότυπο του Άρθρου 12. Δεύτερη: κάθε υποκείμενο δεδομένων έδωσε ρητή συγκατάθεση για τη συγκεκριμένη χρήση εκπαίδευσης. Τρίτη: υπάρχει έγκυρος τεκμηριωμένος σκοπός.
Απαιτήσεις Πορτογαλικής Γλώσσας
Τα βραζιλιάνικα Πορτογαλικά διαφέρουν από τα ευρωπαϊκά Πορτογαλικά. Οι λέξεις, η ορθογραφία και οι μορφές εγγράφων δεν είναι ίδιες. Τα μοντέλα NLP εκπαιδευμένα σε πορτογαλικό κείμενο φτάνουν περίπου στο 71% της ακρίβειας των μοντέλων εκπαιδευμένων σε τοπικό κείμενο. Αυτό προέρχεται από την τεχνική αξιολόγηση της ANPD.
Βασικές διαφορές για ανίχνευση PII:
- Ονόματα: Η χρήση διπλού επωνύμου και η σειρά ονόματος διαφέρουν από την Πορτογαλία.
- Διευθύνσεις: Οι κωδικοί CEP χρησιμοποιούν τη μορφή XXXXX-XXX. Αυτή η μορφή είναι μοναδική για τη χώρα. Χρειάζεται τη δική της λογική ανίχνευσης.
- Όροι εγγράφων: «Carteira de Identidade» εδώ έναντι «Bilhete de Identidade» στην Πορτογαλία. Τα ονόματα υπηρεσιών επίσης διαφέρουν.
Τι Χρειάζεται η Συμμόρφωση με την ANPD
Τέσσερις τεχνικές ανάγκες καλύπτουν τη συμμόρφωση με την ANPD. Η ανίχνευση CPF και CNPJ πρέπει να περιλαμβάνει επικύρωση ψηφίου ελέγχου δύο βημάτων. Η ανίχνευση RG πρέπει να καλύπτει όλες τις πολιτείες. Απαιτείται επίσης ανίχνευση αριθμού SUS και Título de Eleitor. Τα μοντέλα NLP πρέπει να εκπαιδεύονται σε τοπικό πορτογαλικό κείμενο.
Δείτε τον οδηγό μας για παγκόσμια ανίχνευση αναγνωριστικών PII και ενέργειες επιβολής LGPD το 2024.