CNIL Γαλλία: Τεχνικές Απαιτήσεις DPA για Εργαλεία PII
Η CNIL της Γαλλίας είναι η πιο απαιτητική αρχή δεδομένων στην ΕΕ. Οι περισσότεροι ευρωπαϊκοί ρυθμιστές συντάσσουν γενικούς κανόνες. Η CNIL πηγαίνει πιο μακριά. Δημοσιεύει ακριβείς τεχνικές κατευθυντήριες γραμμές που ονομάζονται recommandations. Αυτές θέτουν ακριβή πρότυπα για ανωνυμοποίηση και χρήση δεδομένων ΑΙ.
Οι ειδοποιήσεις CNIL το 2024 ανέφεραν συχνά αδύναμη ανωνυμοποίηση σε συστήματα ΑΙ. Η υπηρεσία δέχτηκε 16.433 καταγγελίες το 2023. Αυτό ήταν 43% περισσότερες από το 2022.
Η Καθοδήγηση CNIL Διαμορφώνει την Πολιτική της ΕΕ
Τα τεχνικά κείμενα της CNIL χρησιμοποιούνται ευρέως ως αναφορά από άλλες DPA της ΕΕ. Δύο οδηγοί έχουν ιδιαίτερη σημασία.
Guide pratique de l'anonymisation (2023): Αυτός ο οδηγός καλύπτει k-ανωνυμία, l-ποικιλομορφία και διαφορική ιδιωτικότητα. Δείχνει πώς να εφαρμόσετε κάθε μέθοδο σε γαλλικά δεδομένα. Η σουηδική IMY και άλλοι ευρωπαϊκοί φορείς τον αναφέρουν στους δικούς τους κανόνες.
Καθοδήγηση συστημάτων ΑΙ (2024): Η CNIL απαριθμεί έξι τύπους δεδομένων που πρέπει να αντιμετωπίζονται στην εκπαίδευση ΑΙ. Καμία άλλη DPA της ΕΕ δεν έχει πάει τόσο μακριά στο θέμα της ΑΙ.
Κανόνες cookies: Η καθοδήγηση cookies της CNIL θέτει τον υψηλότερο τεχνικό πήχη για εργαλεία συγκατάθεσης στην ΕΕ. Ενημερώνεται συχνά.
Το NIR: Ο Πιο Ευαίσθητος Αναγνωριστής της Γαλλίας
Το Numéro d'Inscription au Répertoire (NIR) — γνωστό και ως numéro de sécurité sociale — είναι ένας 15ψήφιος γαλλικός αριθμός κοινωνικής ασφάλισης.
Η μορφή του είναι: S AA MM DD CCC OOO K
- S — 1 ψηφίο: φύλο
- AA — έτος γέννησης
- MM — μήνας γέννησης
- DD — τμήμα γέννησης (01–95, 2A/2B για Κορσική, 97–99 υπερπόντιες, 99 αλλοδαπή)
- CCC — κωδικός δήμου
- OOO — σειρά γέννησης
- K — 2ψήφιο κλειδί ελέγχου (97 − (NIR mod 97))
Το NIR περιλαμβάνει φύλο, ημερομηνία γέννησης και τόπο γέννησης σε έναν αριθμό. Η CNIL το αντιμετωπίζει ως υψηλού κινδύνου. Απαιτεί την ίδια φροντίδα με τα δεδομένα ειδικής κατηγορίας βάσει του άρθρου 9 GDPR.
Γιατί τα εργαλεία χάνουν το NIR: Τα γενικά εργαλεία NLP αποτυγχάνουν στο NIR για τρεις λόγους. Πρώτον, τα 15 ψηφία (συχνά γραμμένα χωρίς κενά) μοιάζουν με άλλους μεγάλους αριθμούς. Δεύτερον, τα ψηφία 7–11 περιέχουν κωδικό τμήματος. Εργαλεία που παρακάμπτουν τον έλεγχο mod-97 αφήνουν ψευδώς θετικά. Τρίτον, τα τμήματα Κορσικής χρησιμοποιούν 2A και 2B, όχι καθαρά ψηφία. Εργαλεία που κατασκευάστηκαν για αμιγώς αριθμητικά μοτίβα αποτυγχάνουν εδώ.
Η καλή ανίχνευση NIR χρειάζεται τρία πράγματα: έλεγχο κλειδιού mod-97, γεωγραφικό κώδικα αναφοράς και κανόνες για την Κορσική.
Δείτε την επισκόπηση ασφάλειας και συμμόρφωσής μας για τον τρόπο που η κάλυψη αναγνωριστικών εντάσσεται σε ένα πλαίσιο διασφαλίσεων GDPR.
SIREN και SIRET: Αναγνωριστικά Επιχειρήσεων σε Προσωπικά Αρχεία
SIREN: Ένα 9ψήφιο γαλλικό αναγνωριστικό εταιρείας με ψηφίο ελέγχου Luhn. Εμφανίζεται σε όλα τα γαλλικά εμπορικά έγγραφα.
SIRET: Ένας 14ψήφιος αριθμός που αποτελείται από SIREN (9 ψηφία) και κωδικό εγκατάστασης (5 ψηφία). Το SIRET ονομάζει μια τοποθεσία. Το SIREN ονομάζει την εταιρεία.
Τα επαγγελματικά αρχεία συχνά περιέχουν αριθμούς SIRET δίπλα σε ονόματα προσωπικού. Η CNIL αντιμετωπίζει SIRET μαζί με όνομα ως προσωπικά δεδομένα. Αυτός ο συνδυασμός ενεργοποιεί τους κανόνες GDPR ακόμα και χωρίς ξεχωριστό πεδίο προσωπικών δεδομένων.
Έξι Βήματα Ανωνυμοποίησης για Εκπαίδευση ΑΙ
Η καθοδήγηση ΑΙ της CNIL 2024 καλύπτει έξι τύπους δεδομένων. Κάθε ένας πρέπει να αντιμετωπιστεί πριν χρησιμοποιηθούν γαλλικά προσωπικά αρχεία στην εκπαίδευση ΑΙ:
- Αφαίρεση άμεσων αναγνωριστικών — Ονόματα, NIR, SIREN πρέπει να αντικατασταθούν ή να αφαιρεθούν
- Γενίκευση ημι-αναγνωριστικών — Ηλικία, τμήμα, επάγγελμα μπορούν να συνδυαστούν για επανα-αναγνώριση ατόμων· μειώστε την ακρίβειά τους
- Προσθήκη θορύβου σε αριθμούς — Τα αριθμητικά πεδία χρειάζονται βαθμονομημένο θόρυβο για αποτροπή συμπερασμάτων
- Έλεγχος k-ανωνυμίας — Κάθε πρόσωπο πρέπει να μοιάζει με τουλάχιστον k-1 άλλα· η CNIL υποδεικνύει k ≥ 5
- Έλεγχος l-ποικιλομορφίας — Τα ευαίσθητα χαρακτηριστικά πρέπει να ποικίλλουν εντός κάθε ομάδας
- Εκτέλεση ελέγχου κινδύνου επανα-αναγνώρισης — Χρησιμοποιήστε τεκμηριωμένη μέθοδο πριν από οποιαδήποτε κυκλοφορία δεδομένων
Η αφαίρεση μόνο NIR και πλήρους ονόματος δεν αρκεί. Η CNIL το έχει διαπιστώσει κατά την επιβολή. Ημι-αναγνωριστικά όπως ο ταχυδρομικός κώδικας και η ιατρική ειδικότητα χρειάζονται επίσης αντιμετώπιση.
Ο οδηγός συμμόρφωσης GDPR μας καλύπτει τα αρχεία που περιμένουν οι γαλλικές DPA κατά τον έλεγχο.
Γλωσσικό Πλαίσιο για Ανίχνευση Γαλλικών PII
Η Γαλλία έχει πολλά γλωσσικά πλαίσια που επηρεάζουν την ανίχνευση.
Τυπικά Γαλλικά είναι η γλώσσα όλων των επίσημων εγγράφων. Τα μοντέλα NER πρέπει να χειρίζονται γράμματα με τόνους: é, è, ê, ë, à, â, î, ô, û, ç, œ.
Υπερπόντια εδάφη (DOM-TOM): Μαρτινίκα, Γουαδελούπη, Ρεϊνιόν, Γουιάνα και Μαγιότ χρησιμοποιούν κωδικούς NIR στο εύρος 97–98. Τα τοπικά μοτίβα ονομάτων διαφέρουν από τη μητροπολιτική Γαλλία.
Αλσατία-Μοζέλ: Ονόματα γερμανικής προέλευσης και ορισμένες γερμανικές μορφές εγγράφων εμφανίζονται σε γαλλικά αρχεία. Τα μοντέλα εκπαιδευμένα μόνο σε τυπικά γαλλικά μπορεί να τα χάσουν.
Διασυνοριακή χρήση: Τα βελγικά γαλλικά χρησιμοποιούν διαφορετική μορφή αναγνωριστικού. Τα εργαλεία που χρησιμοποιούνται στη Γαλλία και το Βέλγιο χρειάζονται κανόνες για κάθε χώρα.
Τι Πρέπει να Καλύπτει το Εργαλείο Σας
Η γαλλική συμμόρφωση απαιτεί τέσσερις τεχνικές ικανότητες:
- NIR με έλεγχο mod-97 — Η αντιστοίχιση μοτίβων μόνο αποτυγχάνει. Τα εργαλεία πρέπει να εκτελούν τον έλεγχο κλειδιού και να χειρίζονται κωδικούς 2A/2B.
- SIREN/SIRET με έλεγχο Luhn — Τα αναγνωριστικά επιχειρήσεων εμφανίζονται σε προσωπικά αρχεία και δημιουργούν συνδυασμούς ονομάτων που καλύπτονται από GDPR.
- Γαλλικό NER με πλήρη υποστήριξη τόνων — Πρέπει να χειρίζεται σύνθετα ονόματα (Jean-Pierre), μόρια (de, du, des) και χαρακτήρες με τόνους.
- Τεκμηριωμένη εξαπλή διαδικασία — Κάθε αγωγός εκπαίδευσης ΑΙ σε γαλλικά δεδομένα χρειάζεται γραπτό αρχείο για κάθε δραστηριότητα ανωνυμοποίησης.