CNIL de Franca: Requisits Tecnics de l'Autoritat de Proteccio de Dades
La CNIL francesa es l'organisme de dades mes exigent de la UE. La majoria de reguladors europeus escriuen normes amples. La CNIL va mes lluny. Publica orientacions tecniques precises anomenades recommandations. Aquestes estableixen estandards exactes per a l'anonimitzacio i l'us de dades en IA.
Les resolucions de la CNIL del 2024 sovint citaven una anonimitzacio feble en sistemes d'IA. L'agencia va rebre 16.433 reclamacions el 2023, un 43% mes que el 2022.
L'orientacio de la CNIL modela la politica de la UE
Els textos tecnics de la CNIL son molt citats per altres autoritats de proteccio de dades de la UE. Dos guies son especialment importants.
Guide pratique de l'anonymisation (2023): Aquesta guia cobreix k-anonymity, l-diversity i privadesa diferencial. Mostra com aplicar cada metode a dades franceses. L'IMY sueca i altres organismes de la UE la citen en les seves propies normes.
Orientacio sobre sistemes d'IA (2024): La CNIL llista sis tipus de dades que s'han de tractar en l'entrenament d'IA. Cap altre organisme de proteccio de dades de la UE ha anat tan lluny en materia d'IA.
Normes de cookies: L'orientacio de la CNIL sobre cookies estableix el llistro tecnic mes alt per a les eines de consentiment a la UE. S'actualitza sovint.
El NIR: l'identificador frances mes sensible
El Numero d'Inscripcio al Repertori (NIR), tambe anomenat numero de seguretat social, es un numero de seguretat social frances de 15 digits.
El seu format es: S AA MM DD CCC OOO K
- S - 1 digit: sexe
- AA - any de naixement
- MM - mes de naixement
- DD - departament de naixement (01-95, 2A/2B per a Corsega, 97-99 ultramar, 99 estranger)
- CCC - codi de municipi
- OOO - ordre de naixement
- K - clau de control de 2 digits (97 - (NIR mod 97))
El NIR inclou el sexe, la data de naixement i el lloc de naixement en un sol numero. La CNIL el considera d'alt risc. Necessita la mateixa atencio que les dades de categoria especial de l'article 9 del GDPR.
Per que les eines no detecten el NIR: Les eines NLP generiques fallen amb el NIR per tres raons. Primera, els 15 digits (sovint escrits sense espais) s'assemblen a altres numeros llargs. Segona, els digits 7-11 contenen un codi de departament. Les eines que salten la comprovacio mod-97 deixen passar falsos positius. Tercera, els departaments corsos usen 2A i 2B, no digits purs. Les eines construides per a patrons nomes numerics fallen aqui.
Una bona deteccio del NIR necessita tres elements: comprovacio de la clau mod-97, un codebook geografic i normes especifiques per a Corsega.
Vegeu el nostre resum de compliment de seguretat per saber com s'enquadra la cobertura d'identificadors en una pila de salvaguardes GDPR.
SIREN i SIRET: identificadors d'empresa en arxius personals
SIREN: Identificador d'empresa frances de 9 digits amb un digit de control Luhn. Apareix en tots els documents comercials francesos.
SIRET: Numero de 14 digits format pel SIREN (9 digits) mes un codi d'establiment (5 digits). El SIRET identifica un centre. El SIREN identifica l'empresa.
Els arxius d'empresa sovint contenen numeros SIRET al costat de noms de treballadors. La CNIL tracta el SIRET mes un nom com a dades personals. Aquest parell activa les normes del GDPR fins i tot sense cap camp de dades personals separat.
Sis passos d'anonimitzacio per a l'entrenament d'IA
L'orientacio d'IA del 2024 de la CNIL cobreix sis tipus de dades. Cadascun s'ha de tractar abans d'usar registres personals francesos en l'entrenament d'IA:
- Eliminar els identificadors directes - Noms, NIR, SIREN s'han de reemplazar o eliminar
- Generalitzar els quasi-identificadors - Edat, departament i professio poden combinar-se per reidentificar persones; reduiu-ne la precisio
- Afegir soroll als numeros - Els camps numerics necessiten soroll calibrat per bloquejar la inferencia
- Comprovar la k-anonimitat - Cada persona ha de semblar almenys com k-1 altres; la CNIL apunta a k >= 5
- Comprovar la l-diversitat - Els atributs sensibles han de variar dins de cada grup
- Executar una comprovacio de risc de reidentificacio - Useu un metode documentat abans de qualsevol publicacio de dades
Eliminar el NIR i el nom complet sol no es suficient. La CNIL ho ha constatat en la seva activitat sancionadora. Quasi-identificadors com el codi postal i l'especialitat medica tambe necessiten tractament.
La nostra guia de compliment GDPR cobreix els registres que les auditories de l'autoritat de proteccio de dades francesa esperen veure.
Context linguistic per a la deteccio de PII en frances
Franca presenta diversos contextos linguistics que afecten la deteccio.
El frances estandard es la llengua de tots els documents oficials. Els models NER han de gestionar les lletres accentuades: e, e, e, e, a, a, i, o, u, c, oe.
Territoris d'ultramar (DOM-TOM): Martinica, Guadalupe, Reunio, Guaiana i Mayotte usen codis NIR en el rang 97-98. Els patrons de noms locals difereixen de la Franca continental.
Alsacia-Mosela: Els noms d'origen alemany i alguns formats de document alemanys apareixen en registres francesos. Els models entrenats nomes en frances estandard poden passar-los per alt.
Us transfronterer: El frances belga utilitza un format d'identificacio diferent. Les eines usades a Franca i Belgica necessiten normes per a cada pais.
Que ha de cobrir la vostra eina
El compliment frances requereix quatre capacitats tecniques:
- NIR amb comprovacio mod-97 - La coincidencia de patrons sola falla. Les eines han d'executar la comprovacio de clau i gestionar els codis 2A/2B.
- SIREN/SIRET amb comprovacio Luhn - Els identificadors d'empresa apareixen en arxius personals i creen combinacions de noms cobertes pel GDPR.
- NER en frances amb suport complet d'accentuacio - Ha de gestionar noms compostos (Jean-Pierre), particules (de, du, des) i caracters accentuats.
- Process documentat en sis passos - Qualsevol pipeline d'entrenament d'IA amb dades franceses necessita un registre escrit per a cada activitat d'anonimitzacio.