CNIL Prancūzija: DPA ADA įrankių reikalavimai
Prancūzijos CNIL yra reikliausias ES duomenų organas. Dauguma ES reguliuotojų rašo plačias taisykles. CNIL eina toliau. Ji skelbia tikslius techninius nurodymus, vadinamus recommandations. Jie nustato tikslus anonimizavimo ir DI duomenų naudojimo standartus.
CNIL pranešimai 2024 m. dažnai nurodė silpną anonimizavimą DI sistemose. Agentūra 2023 m. gavo 16 433 skundus. Tai buvo 43 % daugiau nei 2022 m.
CNIL gairės formuoja ES politiką
CNIL techniniai tekstai plačiai cituojami kitų ES DPA. Dvi gairės yra svarbiausios.
Guide pratique de l'anonymisation (2023): Ši gairė apima k-anonimiškumą, l-įvairovę ir diferencinę privatumą. Ji rodo, kaip kiekvieną metodą taikyti prancūziškiems duomenims. Švedijos IMY ir kiti ES organai ją cituoja savo taisyklėse.
DI sistemų gairės (2024): CNIL išvardija šešis duomenų tipus, kuriuos reikia tvarkyti prieš DI mokymą. Joks kitas ES DPA nenuėjo tiek toli dėl DI.
Slapukų taisyklės: CNIL slapukų gairės nustato aukščiausią techninį standartą sutikimo įrankiams ES. Jos dažnai atnaujinamos.
NIR: Prancūzijos jautriausias identifikatorius
Numero d'Inscription au Repertoire (NIR) - dar vadinamas numero de securite sociale - yra 15 skaitmenų Prancūzijos socialinio draudimo numeris.
Jo formatas: S AA MM DD CCC OOO K
- S - 1 skaitmuo: lytis
- AA - gimimo metai
- MM - gimimo mėnuo
- DD - gimimo departamentas (01-95, 2A/2B Korsikai, 97-99 užjūrio, 99 užsieniečiams)
- CCC - savivaldybės kodas
- OOO - gimimo eiliškumas
- K - 2 skaitmenų tikrinimo raktas (97 - (NIR mod 97))
NIR vienoje eilutėje apima lytį, gimimo datą ir gimimo vietą. CNIL jį laiko didelės rizikos duomenimis. Jam reikia tokio paties dėmesingumo kaip specialių kategorijų duomenims pagal BDAR 9 straipsnį.
Kodėl įrankiai praleidžia NIR: Bendrieji NLP įrankiai neaptinka NIR dėl trijų priežasčių. Pirma, 15 skaitmenų (dažnai rašomų be tarpų) atrodo kaip kiti ilgi skaičiai. Antra, 7-11 skaitmenys laiko departamento kodą. Įrankiai, praleidžiantys mod-97 tikrinimą, praleidžia klaidingus teigiamus rezultatus. Trečia, Korsikos departamentai naudoja 2A ir 2B, o ne grynuosius skaitmenis. Įrankiai, sukurti tik skaitmeniniams šablonams, čia naudojant klaidingai.
Geras NIR aptikimas reikalauja trijų dalykų: mod-97 rakto tikrinimo, geografinio kodų sąrašo ir Korsikai skirtų taisyklių.
Žr. mūsų saugumo atitikties apžvalgą, kaip identifikatoriaus aprėptis atitinka BDAR apsaugos grupę.
SIREN ir SIRET: verslo ID asmeniniuose failuose
SIREN: 9 skaitmenų Prancūzijos įmonės ID su Luhn tikrinimo skaitmeniu. Jis pasirodo visuose Prancūzijos komerciniuose dokumentuose.
SIRET: 14 skaitmenų numeris, sudarytas iš SIREN (9 skaitmenų) ir įstaigos kodo (5 skaitmenys). SIRET nurodo padalinį. SIREN nurodo įmonę.
Verslo failuose dažnai yra SIRET numeriai šalia darbuotojų vardų. CNIL traktuoja SIRET kartu su vardu kaip asmeninius duomenis. Ta pora suaktyvina BDAR taisykles net be atskiro asmeninių duomenų lauko.
Šeši anonimizavimo žingsniai DI mokymui
CNIL 2024 m. DI gairės apima šešis duomenų tipus. Kiekvieną reikia sutvarkyti prieš naudojant prancūziškus asmeninius įrašus DI mokyme:
- Pašalinkite tiesioginius identifikatorius - vardai, NIR, SIREN turi būti pakeisti arba pašalinti
- Apibendrintus kvaziidentifikatorius - amžius, departamentas, profesija gali derinti identifikuoti asmenis; sumažinkite jų tikslumą
- Pridėkite triukšmą prie skaičių - skaitmeniniuose laukuose reikia kalibruoto triukšmo, kad blokuotų išvadas
- Patikrinkite k-anonimiškumą - kiekvienas asmuo turi atrodyti kaip bent k-1 kiti; CNIL nurodo k >= 5
- Patikrinkite l-įvairovę - jautrūs atributai turi skirtis kiekvienoje grupėje
- Atlikite pakartotinio identifikavimo rizikos tikrinimą - naudokite dokumentuotą metodą prieš bet kokį duomenų paskelbimą
Vardo ir NIR pašalinimas vienas nepakanka. CNIL tai nustatė vykdymo procese. Kvaziidentifikatoriai, tokie kaip pašto kodas ir medicinos specialybė, taip pat reikalauja apdorojimo.
Mūsų BDAR atitikties vadovas apima įrašus, kurių tikisi Prancūzijos DPA auditoriai.
Kalbinis kontekstas prancūziškam ADA aptikimui
Prancūzija turi kelis kalbinius kontekstus, turinčius poveikį aptikimui.
Standartine prancūzų kalba rašyti visi oficialūs dokumentai. NER modeliai turi tvarkyti akcentuotas raides: e su akutu, e su graviutu, e su cirkumfleksu, e su trema, a su graviutu, a su cirkumfleksu, i su cirkumfleksu, o su cirkumfleksu, u su cirkumfleksu, c su cedille, ligatura oe.
Užjūrio teritorijos (DOM-TOM): Martinika, Gvadelupa, Reunjona, Gviana ir Majota naudoja NIR kodus 97-98 diapazone. Vietiniai vardų šablonai skiriasi nuo Prancūzijos žemyno.
Elzasas-Mozelas: Vokiečių kilmės vardai ir kai kurie vokiški dokumentų formatai pasirodo prancūziškuose įrašuose. Modeliai, apmokyti tik su standartine prancūzų kalba, gali praleisti juos.
Tarpvalstybinis naudojimas: Belgijos prancūzų kalba naudoja kitokį ID formatą. Prancūzijoje ir Belgijoje naudojami įrankiai turi turėti kiekvienam taisykles.
Ko turi aprėpti jūsų įrankis
Prancūzijos atitiktis reikalauja keturių techninių gebėjimų:
- NIR su mod-97 tikrinimu - šablonų suderinimas vienas nepakankamas. Įrankiai turi paleisti rakto tikrinimą ir tvarkyti 2A/2B kodus.
- SIREN/SIRET su Luhn tikrinimu - verslo ID pasirodo asmeniniuose failuose ir sukuria BDAR apimamas vardo kombinacijas.
- Prancūzų kalbos NER su visu akcento palaikymu - turi tvarkyti sudėtinius vardus (Jean-Pierre), daleles (de, du, des) ir akcentuotus simbolius.
- Dokumentuotas šešių žingsnių procesas - bet kokiam DI mokymo konteinerio kanavimui su prancūziškais duomenimis reikia rašytinio kiekvieno anonimizavimo veiksmo įrašo.