CNIL Ranska: Tietosuojaviranomaisen Henkilötietotyökaluvaatimukset
Ranskan CNIL on EU:n vaativin tietoviranomainen. Useimmat EU:n viranomaiset kirjoittavat laajoja sääntöjä. CNIL menee pidemmälle. Se julkaisee täsmällisiä teknisiä ohjeita nimeltä recommandations. Nämä asettavat tarkat standardit anonymisoinnille ja tekoälyn tietojenkäytölle.
CNIL:n vuoden 2024 huomautuksissa mainittiin usein heikko anonymisointi tekoälyjärjestelmissä. Viranomainen otti vastaan 16 433 valitusta vuonna 2023. Tämä oli 43 % enemmän kuin vuonna 2022.
CNIL:n Ohjeistus Muovaa EU-Politiikkaa
CNIL:n tekniset tekstit ovat laajalti muiden EU:n tietosuojaviranomaisten viittaamia. Kaksi opasta on tärkeimpiä.
Guide pratique de l'anonymisation (2023): Tämä opas kattaa k-anonymiteetin, l-diversiteetin ja differentiaalisen yksityisyyden. Se näyttää, miten kutakin menetelmää käytetään ranskalaisilla tiedoilla. Ruotsin IMY ja muut EU:n elimet viittaavat siihen omissa säännöissään.
Tekoälyjärjestelmien ohjeistus (2024): CNIL listaa kuusi tietotyyppiä, joita on käsiteltävä tekoälykoulutuksessa. Mikään muu EU:n tietosuojaviranomainen ei ole mennyt näin pitkälle tekoälyn osalta.
Evästesäännöt: CNIL:n evästeohjeet asettavat korkeimman teknisen riman suostumustyökaluille EU:ssa. Niitä päivitetään usein.
NIR: Ranskan Arkaluontoisin Tunniste
Numéro d'Inscription au Répertoire (NIR) — kutsutaan myös nimellä numéro de sécurité sociale — on 15-numeroinen ranskalainen sosiaaliturvatunnus.
Sen muoto on: S AA MM DD CCC OOO K
- S — 1 numero: sukupuoli
- AA — syntymävuosi
- MM — syntymäkuukausi
- DD — syntymädepartementti (01–95, 2A/2B Korsikata varten, 97–99 merentakaiset alueet, 99 ulkomaat)
- CCC — kuntakoodi
- OOO — syntymäjärjestys
- K — 2-numeroinen tarkistusavain (97 − (NIR mod 97))
NIR sisältää sukupuolen, syntymäajan ja syntymäpaikan yhdessä numerossa. CNIL pitää sitä korkean riskin kohteena. Se vaatii yhtä huolellista käsittelyä kuin GDPR:n 9 artiklan erityisluokan tiedot.
Miksi työkalut jäävät tunnistamatta NIR:iä: Yleiset NLP-työkalut epäonnistuvat NIR:n kanssa kolmesta syystä. Ensimmäiseksi 15 numeroa (usein kirjoitettu ilman välejä) näyttävät samanlaisilta kuin muut pitkät numerot. Toiseksi numerot 7–11 sisältävät departementtikoodin. Työkalut, jotka ohittavat mod-97-tarkistuksen, päästävät läpi vääriä positiivisia. Kolmanneksi Korsikan departementtien koodit ovat 2A ja 2B, eivät puhtaita numeroita. Pelkästään numeraalisille malleille rakennetut työkalut epäonnistuvat tässä.
Hyvä NIR-tunnistus vaatii kolme asiaa: mod-97-avaintarkistuksen, maantieteellisen koodiston ja Korsika-tietoiset säännöt.
Katso tietoturvan vaatimustenmukaisuuskatsauksestamme, miten tunnistekattavuus sopii GDPR-suojakehykseen.
SIREN ja SIRET: Yritystunnukset Henkilötiedostoissa
SIREN: 9-numeroinen ranskalainen yritystunnus Luhn-tarkistusnumerolla. Se esiintyy kaikissa ranskalaisissa kaupallisissa asiakirjoissa.
SIRET: 14-numeroinen tunnus, joka rakentuu SIREN-numerosta (9 numeroa) plus toimipaikkakoodista (5 numeroa). SIRET nimeää toimipaikan. SIREN nimeää yrityksen.
Yritystiedostot sisältävät usein SIRET-numeroita henkilöstönnimien vieressä. CNIL käsittelee SIRET:iä plus nimeä henkilötietoina. Tämä pari laukaisee GDPR-säännöt, vaikka erillisiä henkilötietokenttiä ei olisi.
Kuusi Anonymisointivaihetta Tekoälykoulutusta Varten
CNIL:n vuoden 2024 tekoälyohjeistus kattaa kuusi tietotyyppiä. Jokainen on käsiteltävä ennen kuin ranskalaisia henkilötietueita käytetään tekoälykoulutuksessa:
- Poista suorat tunnisteet — Nimet, NIR, SIREN on korvattava tai poistettava
- Yleistä kvasitunnisteet — Ikä, departementti ja ammatti voivat yhdistyä henkilöiden uudelleentunnistamiseen; vähennä niiden tarkkuutta
- Lisää kohinaa lukuihin — Numeerisiin kenttiin tarvitaan kalibroitua kohinaa päättelyyn perustuvan tunnistamisen estämiseksi
- Tarkista k-anonymiteetti — Jokaisen henkilön on näytettävä samanlaiselta kuin vähintään k-1 muuta; CNIL viittaa k ≥ 5 arvoon
- Tarkista l-diversiteetti — Arkaluontoisten attribuuttien on vaihdeltava kussakin ryhmässä
- Suorita uudelleentunnistamisen riskin tarkistus — Käytä dokumentoitua menetelmää ennen tietojen julkaisemista
Pelkästään NIR:n ja koko nimen poistaminen ei riitä. CNIL on todennut tämän täytäntöönpanossa. Kvasitunnisteet, kuten postinumero ja lääketieteellinen erikoisala, tarvitsevat myös käsittelyä.
GDPR-vaatimustenmukaisuusoppaassamme käsitellään tietueita, joita ranskalaiset tietosuojaviranomaisauditoinnit odottavat näkevänsä.
Ranskalaisen Henkilötietojen Tunnistuksen Kielikonteksti
Ranskassa on useita kielikonteksteja, jotka vaikuttavat tunnistukseen.
Vakioranskan kieli on kaikkien virallisten asiakirjojen kieli. NER-mallien on käsiteltävä aksentoituja kirjaimia: é, è, ê, ë, à, â, î, ô, û, ç, œ.
Merentakaiset alueet (DOM-TOM): Martinique, Guadeloupe, Réunion, Guyane ja Mayotte käyttävät NIR-koodeja välillä 97–98. Paikalliset nimimallit eroavat manner-Ranskan malleista.
Alsace-Moselle: Saksalaisperäiset nimet ja jotkut saksalaiset asiakirjamuodot esiintyvät ranskalaisissa tietueissa. Pelkästään vakioranskalle koulutetut mallit saattavat jättää nämä tunnistamatta.
Rajat ylittävä käyttö: Belgialainen ranska käyttää erilaista tunnistemuotoa. Ranskassa ja Belgiassa käytettävissä työkaluissa on oltava säännöt molemmille.
Mitä Työkalusi Täytyy Kattaa
Ranskan vaatimustenmukaisuus edellyttää neljää teknistä kykyä:
- NIR mod-97-tarkistuksella — Kaavan sovittaminen yksin epäonnistuu. Työkalujen on suoritettava avaintarkistus ja käsiteltävä 2A/2B-koodeja.
- SIREN/SIRET Luhn-tarkistuksella — Yritystunnukset esiintyvät henkilötiedostoissa ja luovat GDPR:n kattamia nimiyhdistelmiä.
- Ranskalainen NER täydellä aksenttituella — On käsiteltävä yhdistelmänimiä (Jean-Pierre), partikkeleja (de, du, des) ja aksentoituja merkkejä.
- Dokumentoitu kuusivaiheinen prosessi — Jokaisesta ranskalaisiin henkilötietoihin perustuvasta tekoälykoulutusputkesta tarvitaan kirjallinen tallenne jokaisesta anonymisointitoimenpiteestä.