CNIL Prantsusmaa: andmekaitseasutuse PII tööriistade nõuded
Prantsusmaa CNIL on EL-i nõudlikem andmekaitseorgan. Enamik EL-i regulaatoreid kirjutab laiu reegleid. CNIL läheb kaugemale. See avaldab täpseid tehnilisi juhiseid, mida nimetatakse recommandations. Need seavad täpsed standardid anonümiseerimisele ja AI andmekasutusele.
CNIL teated 2024. aastal viitasid sageli nõrgale anonümiseerimisele AI süsteemides. Asutus võttis 2023. aastal vastu 16 433 kaebust. See oli 43% rohkem kui 2022. aastal.
CNIL juhised kujundavad EL-i poliitikat
CNIL tehnilised tekstid on laialdaselt tsiteeritud teiste EL-i andmekaitseasutuste poolt. Kaks juhendit on kõige olulisemad.
Guide pratique de l'anonymisation (2023): See juhend hõlmab k-anonüümsust, l-mitmekesisust ja diferentsiaalset privaatsust. See näitab, kuidas kasutada iga meetodit prantsuse andmetel. Rootsi IMY ja teised EL-i organid tsiteerivad seda oma reeglites.
AI süsteemide juhend (2024): CNIL loetleb kuus andmetüüpi, millega tuleb AI treeningus tegeleda. Ükski teine EL-i andmekaitseasutus pole AI puhul nii kaugele läinud.
Kuksiste reeglid: CNIL-i küpsiste juhend seab kõrgeima tehnilise lati nõusoleku tööriistadele EL-is. Seda uuendatakse sageli.
NIR: Prantsusmaa kõige tundlikum identifikaator
Numero d'Inscription au Repertoire (NIR) - tuntud ka kui numero de securite sociale - on 15-kohaline Prantsuse sotsiaalkindlustusnumber.
Selle formaat on: S AA MM DD CCC OOO K
- S - 1 number: sugu
- AA - sünnikuu aasta
- MM - sünnikuu
- DD - sünnimaakond (01-95, 2A/2B Korsika puhul, 97-99 ülemereterritooriumid, 99 välismaal)
- CCC - omavalitsuse kood
- OOO - sünnikord
- K - 2-kohaline kontrollvõti (97 - (NIR mod 97))
NIR sisaldab ühes numbris sugu, sünnikuupäeva ja sünnikohta. CNIL käsitleb seda kõrge riskiga andmena. See vajab sama hoolsust kui GDPR artikli 9 alusel eriliigilised andmed.
Miks tööriistad NIR-i miskavad: Üldotstarbeline NLP tarvara ei suuda NIR-i tuvastada kolmel põhjusel. Esiteks näevad 15 numbrit (sageli ilma tühikuteta kirjutatud) välja nagu muud pikad numbrid. Teiseks sisaldavad numbrid 7-11 maakonna koodi. Tööriistad, mis jätavad mod-97 kontrollimise vahele, lasevad valepositiivsed läbi. Kolmandaks kasutavad Korsika maakonnad 2A ja 2B, mitte puhtnumbreid. Tööriistad, mis on ehitatud ainult numbriliste mustrite jaoks, ebaõnnestuvad siin.
Hea NIR tuvastamine vajab kolme asja: mod-97 võtme kontrolli, geograafilist kooderaamatut ja Korsika-teadlikke reegleid.
Vaadake meie turvalisuse vastavuse ülevaadet, kuidas identifikaatorite katvus sobib GDPR-i kaitsemeetmete paketti.
SIREN ja SIRET: ettevõtte ID-d isikutoimikutes
SIREN: 9-kohaline Prantsuse ettevõtte ID Luhni kontrollnumbriga. See esineb kõigis Prantsuse äridokumentides.
SIRET: 14-kohaline number, mis koosneb SIREN-ist (9 numbrit) pluss asukoha koodist (5 numbrit). SIRET nimetab asukoha. SIREN nimetab ettevõtte.
Äritoimikud sisaldavad sageli SIRET numbreid koos töötajate nimedega. CNIL käsitleb SIRET-i pluss nimi isikuandmetena. See paar käivitab GDPR-i reeglid isegi ilma eraldi isikuandmete väljata.
Kuus anonümiseerimissammu AI treenimiseks
CNIL-i 2024. aasta AI juhend hõlmab kuut andmetüüpi. Iga tüübiga tuleb tegeleda enne Prantsuse isikuandmete kasutamist AI treeningus:
- Eemalda otsesed identifikaatorid - nimed, NIR, SIREN tuleb asendada või eemaldada
- Generaliseeri kvaasi-identifikaatorid - vanus, maakond, amet võivad koos inimesi tuvastada; vähenda nende täpsust
- Lisa müra numbritele - numbrilistele väljadele on vaja kalibreeritud müra järelduste blokeerimiseks
- Kontrolli k-anonüümsust - iga inimene peab nägema välja nagu vähemalt k-1 teist; CNIL viitab k>=5
- Kontrolli l-mitmekesisust - tundlikud atribuudid peavad igas rühmas varieeruma
- Käivita taasidentifitseerimise riskikontroll - kasuta dokumenteeritud meetodit enne andmete avaldamist
Ainult NIR-i ja täisnime eemaldamine ei piisa. CNIL on seda jõustamisel leidnud. Kvaasi-identifikaatorid nagu postiindeks ja meditsiinieriala vajavad samuti töötlemist.
Meie GDPR vastavuse juhend hõlmab dokumente, mida Prantsuse andmekaitseasutuse auditid ootavad.
Prantsuse PII tuvastamise keelekontekst
Prantsusmaal on mitu keelekonteksti, mis mõjutavad tuvastamist.
Standardne prantsuse keel on kõigi ametlike dokumentide keel. NER mudelid peavad käsitlema rõhumärkidega tähti: e, e, e, e, a, a, i, o, u, c, oe.
Ülemereterritooriumid (DOM-TOM): Martinique, Guadeloupe, Reunion, Guyane ja Mayotte kasutavad NIR koode vahemikus 97-98. Kohalikud nimemustrid erinevad Prantsusmaa mandriosa omadest.
Alsace-Moselle: Saksa päritolu nimed ja mõned saksa dokumendi formaadid esinevad Prantsuse aktidel. Ainult standard-prantsuse keelel treenitud mudelid võivad need vahele jätta.
Piiriulene kasutus: Belgia prantsuse keel kasutab erinevat ID formaati. Prantsumaal ja Belgias kasutatavad tööriistad vajavad reegleid mõlema jaoks.
Mida teie tööriist peab katma
Prantsuse vastavus nõuab nelja tehnilist võimekust:
- NIR mod-97 kontrolliga - mustrite sobitamine üksi ebaõnnestub. Tööriistad peavad käivitama võtme kontrolli ja käsitlema 2A/2B koode.
- SIREN/SIRET Luhni kontrolliga - ettevõtte ID-d esinevad isikutoimikutes ja loovad GDPR-iga hõlmatud nimekombinatsioone.
- Prantsuse NER täieliku rõhumärgi toega - peab käsitlema liitnimesid (Jean-Pierre), osiseid (de, du, des) ja rõhumärkidega tähti.
- Dokumenteeritud kuueastmeline protsess - iga AI treeningu konveier prantsuse andmetel vajab kirjalikku aruannet iga anonümiseerimistegevuse kohta.