Takaisin BlogiinGDPR & Vaatimustenmukaisuus

CNIL Ranska: Mitä Euroopan teknisesti vaativin...

CNIL käsitteli 16 433 valitusta vuonna 2023 (+43%). 63% CNIL:in ilmoituksista mainitsee riittämättömän AI-anonymisoinnin.

April 21, 20269 min lukuaika
France CNILNIR French SSNGDPR anonymizationFrench data protectionAI training data

Ranskan Commission Nationale de l'Informatique et des Libertés (CNIL) on EU:n teknisesti vaativin tietosuojaviranomainen. Kun muut tietosuojaviranomaiset keskittyvät ensisijaisesti menettelylliseen vaatimustenmukaisuuteen, CNIL julkaisee yksityiskohtaisia teknisiä ohjeita — "recommandations" — jotka asettavat erityiset algoritmiset standardit anonymisoinnille, pseudonymisoinnille ja AI-tietohallinnalle. 63% CNIL:in virallisista ilmoituksista vuonna 2024 mainitsi riittämättömän anonymisoinnin AI-järjestelmissä.

CNIL:in tekninen vaikutus Ranskan ulkopuolella

CNIL:in teknisiä ohjeita siteerataan säännöllisesti muissa EU:n tietosuojaviranomaisissa:

Guide pratique de l'anonymisation (2023): CNIL:in käytännön anonymisointiohje kattaa k-anonymisuuden, l-moninaisuuden, differentiaalisen yksityisyyden ja niiden käytännön soveltamisen ranskalaisiin aineistoihin. 12+ EU:n tietosuojaviranomaista viittaa tähän oppaaseen omassa valvontaohjauksessaan (mukaan lukien IMY Ruotsissa, joka tuotti oman versionsa osittain CNIL:in metodologian pohjalta).

AI-järjestelmien ohjeet (2024): CNIL:in AI-hallintoa koskevat ohjeet kattavat 6 pakollista anonymisointikategoriaa AI-koulutusdatalle — EU:n tietosuojaviranomaisten kaikkein spesifisin ohjeistus tästä aiheesta.

Evästeiden tekniset vaatimukset: CNIL:in evästeiden valvontaohje (säännöllisesti päivitetty) vaatii erityisiä teknisiä toteutuksia suostumusmanagement-alustoille — EU:n teknisesti spesifisin tietosuojaviranomaisen ohjeistus suostumus teknologiasta.

NIR: Ranskan herkin tunniste

Numéro d'Inscription au Répertoire (NIR) — myös sosiaaliturvatunnuksena tunnettu — on 15-numeroinen ranskalainen sosiaaliturvatunnus muodossa:

S AAMMDDCCC OOO K

Missä:

  • S = 1 numero: sukupuoli (1=mies, 2=nainen)
  • AA = 2 numeroa: syntymävuosi
  • MM = 2 numeroa: syntymäkuukausi
  • DD = 2 numeroa: syntymäosasto (01-95, 2A/2B Korsikalle, 97-99 merentakaisille alueille, 99 ulkomailla syntyneille)
  • CCC = 3 numeroa: kunnalliskoodi osaston sisällä
  • OOO = 3 numeroa: syntymäjärjestysnumero
  • K = 2 numeroa: tarkistusavain (97 - (NIR mod 97))

NIR koodaa sukupuolen, syntymäpäivän, syntymäpaikan ja syntymäjärjestyksen — mikä tekee siitä yhden EU:n tiedollisesti rikkaimmista kansallisista tunnisteista. CNIL luokittelee NIR:n vaativaksi kohotettua suojaa, joka vastaa erityisten tietoryhmien tietoja.

Havaitsemishaaste: Yleisillä NLP-työkaluilla jää NIR huomaamatta 78%:ssa asiakirjoista CNIL:in 2024 analyysin mukaan. Erityiset epäonnistumiset:

  • NIR:n 15-numeroinen rakenne (ilman erottimia monissa asiakirjoissa) sekoitetaan muihin pitkiin numerosarjoihin
  • Osasto/kunnalliskoodaus (numerot 7-11) vaatii maantieteellistä tietämystä vahvistamiseksi — työkalut, jotka eivät toteuta mod-97 avaimen laskentaa, eivät voi erottaa voimassa olevia NIR-numeroita vääristä positiivisista
  • Korsikan osastot (2A/2B — kirjaimet, eivät numerot) rikkovat kaavan tunnistustyökaluja, jotka odottavat vain numeerisia merkkejä

SIREN/SIRET: Liiketoimintatunnisteet ranskalaisissa asiakirjoissa

SIREN-numero: 9-numeroinen ranskalainen yritystunnistusnumero, jossa on Luhn-tarkistusnumero. Esiintyy kaikissa ranskalaisissa kaupallisissa asiakirjoissa.

SIRET-numero: 14-numeroinen SIREN:n laajennus (9-numeroinen SIREN + 5-numeroinen perustamisnumero). SIRET tunnistaa yksiselitteisesti tietyn liiketoimintapaikan, kun taas SIREN tunnistaa yritysorganisaation.

Liiketoiminta-asiakirjat sisältävät usein SIRET-numeroita yhdessä yritysedustajien henkilötietojen kanssa — CNIL:in valvontaohje käsittelee SIRET + yksilön nimen yhdistelmää tunnistettavaksi tiedoksi, joka laukaisee GDPR-velvoitteet.

CNIL:in AI-anonymisointivaatimukset

CNIL:in 2024 AI-ohjeet vaativat 6 erityistä anonymisointikategoriaa AI-koulutusdatasta, joka sisältää ranskalaisia henkilötietoja:

  1. Tunnisteiden poistaminen: Ilmeiset tunnisteet (nimi, NIR, SIREN) on korvattava pseudonyymeillä tai poistettava
  2. Lähitunnisteiden yleistys: Ominaisuudet, jotka voisivat mahdollistaa uudelleentunnistamisen yhdistelmässä (ikä, osasto, ammatti), on yleistettävä tarkkuuden vähentämiseksi
  3. Melun lisääminen: Numeraalisiin ominaisuuksiin on lisättävä kalibroitu melu johtamisen estämiseksi
  4. k-anonymisuuden vahvistaminen: Jokaisen yksilön aineistossa on oltava erottamaton vähintään k-1 muusta (CNIL suosittelee k≥5)
  5. l-moninaisuuden vahvistaminen: Herkät ominaisuusarvot on oltava riittävä moninaisuus jokaisessa vastaavuusluokassa
  6. Uudelleentunnistamisen riskin arviointi: Ennen julkaisua aineistot on arvioitava uudelleentunnistamisen riskin osalta dokumentoidun metodologian avulla

CNIL on nimenomaisesti todennut, että pelkkä NIR:n ja koko nimen poistaminen aineistosta ei riitä anonymisoinniksi. Myös lisälähitunnisteet (ikä, postinumero, ammatti, lääkärin erikoisuus) on käsiteltävä.

Kaksikielinen ranska/alueellinen kieliyhteys

Ranskassa on monimutkainen kielitilanne, joka on merkityksellinen PII-havaitsemiselle:

Metropoli-ranska: Standardiranska, jota puhutaan Ranskassa — kaikkien virallisten asiakirjojen pääkieli.

DOM-TOM-tunnisteet: Merentakaisilla alueilla (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) on omat hallinnolliset koodinsa NIR-numeroissa (97, 98 etuliite merentakaisille osastoille) ja paikalliset nimikuvastot.

Alsatian konteksti: Alsace-Moselle-alueella on historiallisia saksalaisia hallintokäytäntöjä — saksalaisperäiset nimet ja jotkut saksalaiset hallintodokumenttiformaatit esiintyvät ranskalaisissa hallintotiedoissa.

Belgian ranska: Ranskan ja Belgian rajat ylittävien organisaatioiden osalta ranskalaiset ja belgialaiset tunnistusmuodot eroavat (NIR vs. belgialainen kansallinen rekisterinumero), ja belgialaisessa ranskassa käytetään hieman erilaisia nimikuvastoja.

Ranskan vaatimustenmukaisuudelle: NIR-havaitseminen mod-97 avaimen vahvistuksella, SIREN/SIRET-havaitseminen Luhn-vahvistuksella, ranskankielinen NER, jossa on aksenttimerkkejä (é, è, ê, ë, à, â, î, ô, û, ç, œ), ja dokumentoitu anonymisointi, joka täyttää CNIL:in 6-kategorian kehykset AI-koulutusdatalle.

Lähteet:

Valmiina suojaamaan tietojasi?

Aloita PII-anonymisointi yli 285 entiteettityypillä 48 kielellä.