CNIL Frankryk: DPA PII-instrumentvereistes
Frankryk se CNIL is die EU se mees veeleisende dataowerheid. Die meeste EU-reguleerders skryf bree reels. CNIL gaan verder. Dit publiseer presiese tegniese leiding wat recommandations genoem word. Hierdie stel presiese standaarde vir anonimisering en KI-datagebruik.
CNIL-kennisgewings in 2024 het dikwels swak anonimisering in KI-stelsels aangehaal. Die agentskap het in 2023 16 433 klagtes ontvang. Dit was 43% meer as in 2022.
CNIL-leiding Beïnvloed EU-beleid
CNIL se tegniese tekste word wyd deur ander EU-DPA's aangehaal. Twee gidse is die belangrikste.
Guide pratique de l'anonymisation (2023): Hierdie gids dek k-anonimiteit, l-diversiteit, en differensiele privaatheid. Dit wys hoe om elke metode op Franse data toe te pas. Swede se IMY en ander EU-liggame haal dit aan in hul eie reels.
KI-stelsels leiding (2024): CNIL lys ses datatipes wat hanteer moet word in KI-opleiding. Geen ander EU-DPA het so ver gegaan oor KI nie.
Koekie-reels: CNIL se koekie-leiding stel die hoogste tegniese standaard vir toestemmingsinstrumente in die EU. Dit word gereeld opgedateer.
Die NIR: Frankryk se Mees Sensitiewe Identifiseerder
Die Numero d'Inscription au Repertoire (NIR) -- ook genoem die numéro de securite sociale -- is 'n 15-syfer Franse sosiale sekuriteitsnommer.
Die formaat is: S AA MM DD CCC OOO K
- S -- 1 syfer: geslag
- AA -- geboortejaar
- MM -- geboortemaand
- DD -- geboorte-departement (01-95, 2A/2B vir Korsika, 97-99 oorsee, 99 buiteland)
- CCC -- munisipaliteitskode
- OOO -- geboortevolgorde
- K -- 2-syfer-kontrolesleutel (97 - (NIR mod 97))
Die NIR hou geslag, geboortedatum, en geboorteplek in een nommer. CNIL behandel dit as hoe risiko. Dit benodig dieselfde sorg as spesiale-kategorie-data onder GDPR Artikel 9.
Waarom instrumente NIR mis: Generiese NLP-instrumente misluk op NIR om drie redes. Eerstens lyk die 15 syfers (dikwels sonder spasies geskryf) soos ander lang nommers. Tweedens hou syfers 7-11 'n departementskode. Instrumente wat die mod-97-kontrole oorsla laat vals positiewes deur. Derdens gebruik Korsikaanse departemente 2A en 2B, nie suiwer syfers nie. Instrumente gebou vir slegs-numeriese patrone misluk hier.
Goeie NIR-opsporing vereis drie dinge: mod-97-sleutelkontrole, 'n geografiese kodeboek, en Korsika-bewuste reels.
Sien ons sekuriteitsnakomingsoorsig vir hoe identifiseerdersdekking in 'n GDPR-waarborgstapel pas.
SIREN en SIRET: Besigheids-ID's in Persoonlike Leers
SIREN: 'n 9-syfer Franse maatskappy-ID met 'n Luhn-kontrolesyfer. Dit verskyn in alle Franse kommersiële dokumente.
SIRET: 'n 14-syfer-nommer wat uit SIREN (9 syfers) plus 'n vestigingskode (5 syfers) saamgestel is. SIRET benoem 'n perseel. SIREN benoem die maatskappy.
Sakelêers hou dikwels SIRET-nommers langs personeelname. CNIL behandel SIRET plus 'n naam as persoonlike data. Daai paar aktiveer GDPR-reels selfs sonder 'n afsonderlike persoonlike dataveld.
Ses Anonimiseringststappe vir KI-opleiding
CNIL se 2024 KI-leiding dek ses datatipes. Elkeen moet hanteer word voordat Franse persoonlike rekords in KI-opleiding gebruik word:
- Verwyder direkte identifiseerders -- Name, NIR, SIREN moet vervang of verwyder word
- Veralgemeen kwasi-identifiseerders -- Ouderdom, departement, beroep kan saam mense heridentifiseer; verminder hul presisie
- Voeg ruis by getalle -- Numeriese velde benodig gekalibreerde ruis om inferensie te blokkeer
- Kontroleer k-anonimiteit -- Elke persoon moet soos ten minste k-1 ander lyk; CNIL wys na k ≥ 5
- Kontroleer l-diversiteit -- Sensitiewe attribute moet binne elke groep wissel
- Doen 'n heridentifikasierisikokontrole -- Gebruik 'n gedokumenteerde metode voor enige datavrystellin
Slegs die NIR en volle naam verwyder is nie genoeg nie. CNIL het dit in handhawing gevind. Kwasi-identifiseerders soos posbus en mediese spesialiteit benodig ook behandeling.
Ons GDPR-nakomingsgids dek die rekords wat Franse DPA-ouditte verwag.
Taalkonteks vir Franse PII-opsporing
Frankryk het verskeie taalkundige kontekste wat opsporing beïnvloed.
Standaard Frans is die taal van alle amptelike dokumente. NER-modelle moet geaksentueerde letters hanteer: e, e, e, e, a, a, i, o, u, c, oe.
Oorsese gebiede (DOM-TOM): Martinique, Guadeloupe, Reunion, Guyane, en Mayotte gebruik NIR-kodes in die 97-98-reeks. Plaaslike naampatrone verskil van die Franse vasteland.
Elsas-Moselle: Duits-afkomstige name en sommige Duitse dokumentformate verskyn in Franse rekords. Modelle wat slegs op standaard Frans opgelei is, kan hierdie mis.
Grensoverschrydende gebruik: Belgiese Frans gebruik 'n ander ID-formaat. Instrumente wat in Frankryk en Belgie gebruik word, benodig reels vir elkeen.
Wat U Instrument Moet Dek
Franse nakoming vereis vier tegniese vermoens:
- NIR met mod-97-kontrole -- Patroonpassing alleen misluk. Instrumente moet die sleutelkontrole uitvoer en 2A/2B-kodes hanteer.
- SIREN/SIRET met Luhn-kontrole -- Besigheids-ID's verskyn in persoonlike leers en skep GDPR-gedekte naamkombinasies.
- Franse NER met volle aksent-ondersteuning -- Moet saamgestelde name (Jean-Pierre), partikels (de, du, des), en geaksentueerde karakters hanteer.
- Gedokumenteerde ses-stap-proses -- Enige KI-opleidingspypleiding op Franse data benodig 'n geskrewe rekord vir elke anonimiseringsaktiwiteit.