CNIL Francuska: Zahtjevi DPA za PII Alate
Francuski CNIL je najzahtjevnije tijelo za podatke u EU. Vecina EU regulatora pise siroke propise. CNIL ide dalje. Objavljuje precizne tehnicke smjernice zvane recommandations. Te smjernice postavljaju tocne standarde za anonimizaciju i upotrebu podataka u AI sustavima.
CNIL obavijesti 2024. cesto su navodile slabu anonimizaciju u AI sustavima. Agencija je 2023. zaprimila 16.433 prituzbi. To je bilo 43 % vise nego 2022.
CNIL Smjernice Oblikuju EU Politiku
CNIL-ovi tehnicki tekstovi siroko se citiraju od strane ostalih EU DPA-ova. Dva vodicna dokumenta su najvaznija.
Guide pratique de l'anonymisation (2023.): Ovaj vodic pokriva k-anonimnost, l-raznolikost i diferencijalnu privatnost. Pokazuje kako koristiti svaku metodu na francuskim podacima. Svedski IMY i druga EU tijela citiraju ga u vlastitim pravilima.
Smjernice za AI sustave (2024.): CNIL navodi sest vrsta podataka kojima se mora posvetiti paznja u AI treningu. Nijedno drugo EU DPA nije otislo tako daleko u pogledu AI.
Pravila o kolacicima: CNIL-ove smjernice o kolacicima postavljaju najvisi tehnicku ljestvicu za alate pristanka u EU. Redovito se azuriraju.
NIR: Najosjetljiviji Francuski Identifikator
Numero d'Inscription au Repertoire (NIR) - poznat i kao numero de securite sociale - je 15-znamenkasti francuski broj socijalnog osiguranja.
Njegov format je: S AA MM DD CCC OOO K
- S - 1 znamenka: spol
- AA - godina rodenja
- MM - mjesec rodenja
- DD - departman rodenja (01-95, 2A/2B za Korziku, 97-99 prekomorska podrucja, 99 strani)
- CCC - kod opcine
- OOO - redni broj rodenja
- K - 2-znamenkasti kontrolni kljuc (97 - (NIR mod 97))
NIR sadrzi spol, datum rodenja i mjesto rodenja u jednom broju. CNIL ga tretira kao visokorizican. Zahtijeva istu paznju kao i podaci posebne kategorije prema clanku 9. GDPR-a.
Zasto alati propustaju NIR: Genericki NLP alati ne uspijevaju s NIR-om iz tri razloga. Prvo, 15 znamenki (cesto pisanih bez razmaka) izgledaju kao drugi dugi brojevi. Drugo, znamenke 7-11 sadrze kod departmana. Alati koji preskacu provjeru mod-97 propustaju lazne pozitivne. Trece, korzicki departmani koriste 2A i 2B, a ne ciste znamenke. Alati izgraeni za iskljucivo numericke uzorke ne uspijevaju ovdje.
Dobro otkrivanje NIR-a zahtijeva tri stvari: provjeru mod-97 kljuca, geografski kodnik i pravila svjesna Korzike.
Pogledajte nas pregled sigurnosne uskladjenosti za smjestanje pokrivenosti identifikatora u GDPR sigurnosni okvir.
SIREN i SIRET: Poslovni ID-jevi u Osobnim Datotekama
SIREN: 9-znamenkasti francuski poslovni ID s Luhn kontrolnom znamenkom. Pojavljuje se u svim francuskim poslovnim dokumentima.
SIRET: 14-znamenkasti broj sastavljen od SIREN-a (9 znamenki) plus koda poslovnog mjesta (5 znamenki). SIRET imenuje lokaciju. SIREN imenuje tvrtku.
Poslovne datoteke cesto sadrze SIRET brojeve uz imena zaposlenika. CNIL tretira SIRET plus ime kao osobne podatke. Taj par aktivira GDPR pravila cak i bez zasebnog polja osobnih podataka.
Sest Koraka Anonimizacije za AI Trening
CNIL-ove smjernice za AI iz 2024. pokrivaju sest vrsta podataka. Svaka se mora rijesiti prije upotrebe francuskih osobnih zapisa u AI treningu:
- Uklonite izravne identifikatore - Imena, NIR, SIREN moraju biti zamijenjeni ili uklonjeni
- Generalizirajte kvazi-identifikatore - Dob, departman i zanimanje mogu se kombinirati za ponovnu identifikaciju; smanjite njihovu preciznost
- Dodajte sum brojevima - Numericka polja trebaju kalibrirani sum za blokiranje zakljucivanja
- Provjera k-anonimnosti - Svaka osoba mora izgledati kao najmanje k-1 ostalih; CNIL ukazuje na k >= 5
- Provjera l-raznolikosti - Osjetljivi atributi moraju varirati unutar svake grupe
- Provedite provjeru rizika ponovne identifikacije - Koristite dokumentiranu metodu prije svakog objavljivanja podataka
Samo uklanjanje NIR-a i punog imena nije dovoljno. CNIL je to utvrdio u provedbi. Kvazi-identifikatori poput postasnkog broja i medicinske specijalnosti takoer trebaju obradu.
Nas vodic za GDPR uskladjenost pokriva zapise koje francuske DPA revizije ocekuju.
Jezicni Kontekst za Otkrivanje Francuskog PII
Francuska ima nekoliko lingvistickih konteksta koji utjecu na otkrivanje.
Standardni francuski je jezik svih sluzbenih dokumenata. NER modeli moraju obradivati naglasena slova: e, e, e, e, a, a, i, o, u, c, oe.
Prekomorski teritoriji (DOM-TOM): Martinique, Guadeloupe, Reunion, Guyane i Mayotte koriste NIR kodove u rasponu 97-98. Lokalni uzorci imena razlikuju se od kontinentalne Francuske.
Alsace-Moselle: Njemacka imena i neki njemacki formati dokumenata pojavljuju se u francuskim zapisima. Modeli trenirani iskljucivo na standardnom francuskom mogu propustiti ove.
Prekogranicna upotreba: Belgijski francuski koristi drugaciji format ID-ja. Alati koji se koriste u Francuskoj i Belgiji trebaju pravila za svaki.
Sto Vas Alat Mora Pokriti
Francuska uskladjenost zahtijeva cetiri tehnicke sposobnosti:
- NIR s mod-97 provjerom - Samo prepoznavanje uzoraka ne uspijeva. Alati moraju pokretati provjeru kljuca i obradivati 2A/2B kodove.
- SIREN/SIRET s Luhn provjerom - Poslovni ID-jevi pojavljuju se u osobnim datotekama i stvaraju kombinacije pokrivene GDPR-om.
- Francuski NER s punom podrscom naglasaka - Mora obradivati slozenice (Jean-Pierre), cestice (de, du, des) i naglasena slova.
- Dokumentiran sestostupanjski postupak - Svaki AI pipeline koji obraduje francuske podatke treba pisani zapis za svaku aktivnost anonimizacije.