CNIL Perancis: Keperluan Alat PII DPA
CNIL Perancis adalah badan data yang paling menuntut di EU. Kebanyakan pengawal selia EU menulis peraturan yang luas. CNIL pergi lebih jauh. Ia menerbitkan panduan teknikal yang tepat yang dipanggil recommandations. Ini menetapkan piawaian tepat untuk anonimisasi dan penggunaan data AI.
Notis CNIL pada 2024 sering memetik anonimisasi lemah dalam sistem AI. Agensi menerima 16,433 aduan pada 2023. Itu adalah 43% lebih banyak daripada 2022.
Panduan CNIL Membentuk Dasar EU
Teks teknikal CNIL banyak disebut oleh DPA EU lain. Dua panduan paling penting.
Guide pratique de l'anonymisation (2023): Panduan ini meliputi k-anonymity, l-diversity, dan privasi perbezaan. Ia menunjukkan cara menggunakan setiap kaedah pada data Perancis. IMY Sweden dan badan EU lain memetiknya dalam peraturan mereka sendiri.
Panduan sistem AI (2024): CNIL menyenaraikan enam jenis data yang mesti dikendalikan dalam latihan AI. Tiada DPA EU lain yang pergi sejauh ini mengenai AI.
Peraturan kuki: Panduan kuki CNIL menetapkan bar teknikal tertinggi untuk alat persetujuan di EU. Ia dikemas kini dengan kerap.
NIR: Pengecam Paling Sensitif Perancis
Numero d'Inscription au Repertoire (NIR) — juga dipanggil numero de securite sociale — ialah nombor keselamatan sosial Perancis 15 digit.
Formatnya ialah: S AA MM DD CCC OOO K
- S — 1 digit: jantina
- AA — tahun lahir
- MM — bulan lahir
- DD — jabatan lahir (01-95, 2A/2B untuk Corsica, 97-99 luar negeri, 99 asing)
- CCC — kod perbandaran
- OOO — urutan lahir
- K — kunci semak 2 digit (97 - (NIR mod 97))
NIR menyimpan jantina, tarikh lahir, dan tempat lahir dalam satu nombor. CNIL menganggapnya berisiko tinggi. Ia memerlukan penjagaan yang sama seperti data kategori khas di bawah Artikel 9 GDPR.
Mengapa alat terlepas NIR: Alat NLP generik gagal pada NIR atas tiga sebab. Pertama, 15 digit (sering ditulis tanpa jurang) kelihatan seperti nombor panjang lain. Kedua, digit 7-11 menyimpan kod jabatan. Alat yang melangkau semakan mod-97 membiarkan positif palsu melalui. Ketiga, jabatan Corsican menggunakan 2A dan 2B, bukan digit tulen. Alat yang dibina untuk corak digit sahaja gagal di sini.
Pengesanan NIR yang baik memerlukan tiga perkara: semakan kunci mod-97, buku kod geografi, dan peraturan sedar-Corsica.
Lihat gambaran pematuhan keselamatan kami untuk cara liputan pengecam sesuai dalam timbunan perlindungan GDPR.
SIREN dan SIRET: ID Perniagaan dalam Fail Peribadi
SIREN: ID syarikat Perancis 9 digit dengan digit semak Luhn. Ia muncul dalam semua dokumen komersial Perancis.
SIRET: Nombor 14 digit yang dibina daripada SIREN (9 digit) tambah kod pertubuhan (5 digit). SIRET menamakan tapak. SIREN menamakan syarikat.
Fail perniagaan sering menyimpan nombor SIRET bersebelahan dengan nama kakitangan. CNIL menganggap SIRET tambah nama sebagai data peribadi. Pasangan itu mencetuskan peraturan GDPR walaupun tanpa medan data peribadi yang berasingan.
Enam Langkah Anonimisasi untuk Latihan AI
Panduan AI CNIL 2024 meliputi enam jenis data. Setiap satu mesti dikendalikan sebelum menggunakan rekod peribadi Perancis dalam latihan AI:
- Keluarkan pengecam langsung — Nama, NIR, SIREN mesti diganti atau dikeluarkan
- Umum pengecam quasi — Umur, jabatan, profesion boleh bergabung untuk mengenal pasti semula orang; kurangkan ketepatannya
- Tambah bunyi pada nombor — Medan berangka memerlukan bunyi yang dikalibrasi untuk menyekat inferens
- Semak k-anonymity — Setiap orang mesti kelihatan seperti sekurang-kurangnya k-1 orang lain; CNIL menunjuk kepada k >= 5
- Semak l-diversity — Atribut sensitif mesti berbeza dalam setiap kumpulan
- Jalankan semakan risiko pengecaman semula — Gunakan kaedah yang didokumentasikan sebelum sebarang keluaran data
Mengeluarkan NIR dan nama penuh sahaja tidak mencukupi. CNIL telah mendapati ini dalam penguatkuasaan. Pengecam quasi seperti kod ZIP dan kepakaran perubatan juga memerlukan rawatan.
Panduan pematuhan GDPR kami meliputi rekod yang dijangka dalam audit DPA Perancis.
Konteks Bahasa untuk Pengesanan PII Perancis
Perancis mempunyai beberapa konteks linguistik yang mempengaruhi pengesanan.
Bahasa Perancis standard adalah bahasa semua dokumen rasmi. Model NER mesti mengendalikan huruf beraksen: e, e, e, e, a, a, i, o, u, c, oe.
Wilayah seberang laut (DOM-TOM): Martinique, Guadeloupe, Reunion, Guyane, dan Mayotte menggunakan kod NIR dalam julat 97-98. Corak nama tempatan berbeza daripada Perancis daratan.
Alsace-Moselle: Nama asal Jerman dan beberapa format dokumen Jerman muncul dalam rekod Perancis. Model yang dilatih hanya pada bahasa Perancis standard mungkin terlepas ini.
Penggunaan rentas sempadan: Perancis Belgium menggunakan format ID yang berbeza. Alat yang digunakan di Perancis dan Belgium memerlukan peraturan untuk setiap satu.
Apa yang Alat Anda Mesti Liputi
Pematuhan Perancis memerlukan empat kemampuan teknikal:
- NIR dengan semakan mod-97 — Pemadanan corak sahaja gagal. Alat mesti menjalankan semakan kunci dan mengendalikan kod 2A/2B.
- SIREN/SIRET dengan semakan Luhn — ID perniagaan muncul dalam fail peribadi dan mencipta gabungan nama yang dilindungi GDPR.
- NER Perancis dengan sokongan aksen penuh — Mesti mengendalikan nama kompaun (Jean-Pierre), zarah (de, du, des), dan aksara beraksen.
- Proses enam langkah yang didokumentasikan — Sebarang saluran latihan AI pada data Perancis memerlukan rekod bertulis untuk setiap aktiviti anonimisasi.