CNIL Francuska: Tehnicki zahtevi DPA za PII alate
Francuski CNIL je najzahtevniji organ za zastitu podataka u EU. Vecina EU regulatora pise siroke propise. CNIL ide dalje. Objavljuje precizne tehnicke smernice zvane recommandations. One postavljaju tacne standarde za anonimizaciju i upotrebu podataka u vestackoj inteligenciji.
CNIL nalazi u 2024. cesto su navodili slabu anonimizaciju u AI sistemima. Agencija je primila 16.433 prituzbi u 2023. To je za 43% vise nego u 2022.
CNIL smernice oblikuju EU politiku
CNIL tehnicke tekstove siroko citiraju drugi EU DPA organi. Dva vodicima su najvaznija.
Guide pratique de l'anonymisation (2023): Ovaj vodic pokriva k-anonimnost, l-raznovrsnost i diferencijalnu privatnost. Pokazuje kako koristiti svaku metodu na francuskim podacima. Svedski IMY i drugi EU organi citiraju ga u sopstvenim pravilima.
Smernice za AI sisteme (2024): CNIL navodi sest tipova podataka koji moraju biti tretirani u AI obuci. Nijedan drugi EU DPA organ nije otisao tako daleko u pogledu AI.
Pravila o kolacicima: CNIL-ove smernice o kolacicima postavljaju najvisi tehnicki standard za alate za pristanak u EU. Azuriraju se cesto.
NIR: Najosjetljiviji francuski identifikator
Numero d'Inscription au Repertoire (NIR) - poznat i kao numero de securite sociale - je 15-cifreni francuski broj socijalnog osiguranja.
Njegov format je: S AA MM DD CCC OOO K
- S - 1 cifra: pol
- AA - godina rodjenja
- MM - mesec rodjenja
- DD - departman rodjenja (01-95, 2A/2B za Korziku, 97-99 prekomorski, 99 strani)
- CCC - sifra opstine
- OOO - redni broj rodjenja
- K - 2-cifreni kontrolni kljuc (97 - (NIR mod 97))
NIR sadrzi pol, datum rodjenja i mesto rodjenja u jednom broju. CNIL ga tretira kao visokorizican. Zahteva istu paznju kao podaci posebnih kategorija prema GDPR clanu 9.
Zasto alati propustaju NIR: Genericki NLP alati ne uspevaju na NIR iz tri razloga. Prvo, 15 cifara (cesto pisanih bez razmaka) lici na druge duge brojeve. Drugo, cifre 7-11 sadrze sifru departmana. Alati koji preskacu mod-97 proveru propustaju lazne pozitivne. Trece, korzicki departmani koriste 2A i 2B, ne ciste cifre. Alati napravljeni za numericke obrasce ne uspevaju ovde.
Dobra NIR detekcija zahteva tri stvari: mod-97 proveru kljuca, geografsku kodnu listu i pravila svesna Korzike.
Pogledjte nas pregled bezbednosne uskladjenosti za to kako pokrivenost identifikatora odgovara skupu GDPR zastita.
SIREN i SIRET: Poslovni ID-jevi u licnim datotekama
SIREN: 9-cifreni francuski ID kompanije sa Luhn kontrolnom cifrom. Pojavljuje se u svim francuskim komercijalnim dokumentima.
SIRET: 14-cifreni broj sacinjen od SIREN (9 cifara) plus sifre lokacije (5 cifara). SIRET imenuje lokaciju. SIREN imenuje kompaniju.
Poslovne datoteke cesto sadrze SIRET brojeve pored imena zaposlenih. CNIL tretira SIRET plus ime kao licne podatke. Taj par aktivira GDPR pravila cak i bez posebnog polja licnih podataka.
Sest koraka anonimizacije za AI obuku
CNIL-ove smernice za AI iz 2024. pokrivaju sest tipova podataka. Svaki mora biti obradjeni pre koriscenja francuskih licnih zapisa u AI obuci:
- Ukloniti direktne identifikatore - Imena, NIR, SIREN moraju biti zamenjeni ili uklonjeni
- Generalizovati kvaziidentifikatore - Starost, departman, profesija mogu se kombinovati za ponovnu identifikaciju; smanjiti njihovu preciznost
- Dodati sum brojevima - Numericka polja zahtevaju kalibrisani sum za blokiranje zakljucaka
- Proveriti k-anonimnost - Svaka osoba mora izgledati kao najmanje k-1 osoba; CNIL upucuje na k >= 5
- Proveriti l-raznovrsnost - Osjetljivi atributi moraju varirati unutar svake grupe
- Sprovesti proveru rizika ponovne identifikacije - Koristiti dokumentovanu metodu pre bilo kakvog objavljivanja podataka
Samo uklanjanje NIR i punog imena nije dovoljno. CNIL je to utvrdio u postupcima primene. Kvaziidentifikatori poput postanskog broja i medicinske specijalnosti takodje zahtevaju tretman.
Nas vodic za GDPR uskladjenost pokriva zapise koje revizije francuskih DPA organa ocekuju da vide.
Jezicki kontekst za detekciju francuskih PII
Francuska ima nekoliko jezickih konteksta koji uticu na detekciju.
Standardni francuski je jezik svih sluzbenih dokumenata. NER modeli moraju obradivati akcente: e, e, e, e, a, a, i, o, u, c, oe.
Prekomorske teritorije (DOM-TOM): Martinik, Gvadelup, Reunion, Gvajana i Majot koriste NIR kodove u opsegu 97-98. Lokalni obrasci imena razlikuju se od metropolitanskog dela Francuske.
Alzas-Mozel: Nemacki nazivi i neki nemacki formati dokumenata pojavljuju se u francuskim zapisima. Modeli trenirani samo na standardnom francuskom mogu propustiti ove.
Prekogranicna upotreba: Belgijski francuski koristi drugacij format ID-ja. Alati koji se koriste u Francuskoj i Belgiji trebaju pravila za svako.
Sta vas alat mora pokriti
Francuska uskladjenost zahteva cetiri tehnicke sposobnosti:
- NIR sa mod-97 proverom - Samo podudaranje obrazaca nije dovoljno. Alati moraju pokrenuti proveru kljuca i rukovati kodovima 2A/2B.
- SIREN/SIRET sa Luhn proverom - Poslovni ID-jevi pojavljuju se u licnim datotekama i stvaraju kombinacije pokrivene GDPR-om.
- Francuski NER sa potpunom podrskon za akcente - Mora rukovati slozenim imenima (Jean-Pierre), cesticama (de, du, des) i naglasenim znakovima.
- Dokumentovan sest-koraka proces - Svaki AI pipeline za obuku na francuskim podacima zahteva pisani zapis za svaku aktivnost anonimizacije.