CNIL Prancis: Persyaratan Alat PII dari DPA
CNIL Prancis adalah badan data paling ketat di UE. Sebagian besar regulator UE menulis aturan yang luas. CNIL melangkah lebih jauh. CNIL menerbitkan panduan teknis yang tepat yang disebut recommandations. Ini menetapkan standar yang tepat untuk anonimisasi dan penggunaan data AI.
Pemberitahuan CNIL pada 2024 sering mengutip anonimisasi yang lemah dalam sistem AI. Lembaga ini menerima 16.433 pengaduan pada 2023. Angka itu 43% lebih banyak dari 2022.
Panduan CNIL Membentuk Kebijakan UE
Teks teknis CNIL banyak dikutip oleh DPA UE lainnya. Dua panduan sangat penting.
Guide pratique de l'anonymisation (2023): Panduan ini mencakup k-anonymity, l-diversity, dan differential privacy. Ini menunjukkan cara menggunakan setiap metode pada data Prancis. IMY Swedia dan badan UE lainnya mengutipnya dalam aturan mereka sendiri.
Panduan sistem AI (2024): CNIL mencantumkan enam jenis data yang harus ditangani dalam pelatihan AI. Tidak ada DPA UE lain yang melangkah sejauh ini dalam hal AI.
Aturan cookie: Panduan cookie CNIL menetapkan standar teknis tertinggi untuk alat persetujuan di UE. Panduan ini diperbarui secara rutin.
NIR: Pengenal Paling Sensitif Prancis
Numéro d'Inscription au Répertoire (NIR) — juga disebut numéro de sécurité sociale — adalah nomor jaminan sosial Prancis 15 digit.
Formatnya adalah: S AA MM DD CCC OOO K
- S — 1 digit: jenis kelamin
- AA — tahun lahir
- MM — bulan lahir
- DD — departemen lahir (01–95, 2A/2B untuk Korsika, 97–99 luar negeri, 99 asing)
- CCC — kode kotamadya
- OOO — urutan lahir
- K — kunci cek 2 digit (97 − (NIR mod 97))
NIR menyimpan jenis kelamin, tanggal lahir, dan tempat lahir dalam satu nomor. CNIL memperlakukannya sebagai risiko tinggi. NIR memerlukan perawatan yang sama dengan data kategori khusus berdasarkan Pasal 9 GDPR.
Mengapa alat melewatkan NIR: Alat NLP generik gagal pada NIR karena tiga alasan. Pertama, 15 digit (sering ditulis tanpa spasi) terlihat seperti angka panjang lainnya. Kedua, digit 7–11 menyimpan kode departemen. Alat yang melewatkan pemeriksaan mod-97 membiarkan positif palsu lolos. Ketiga, departemen Korsika menggunakan 2A dan 2B, bukan digit murni. Alat yang dibuat untuk pola hanya-numerik gagal di sini.
Deteksi NIR yang baik membutuhkan tiga hal: pemeriksaan kunci mod-97, buku kode geografis, dan aturan yang sadar Korsika.
Lihat ikhtisar kepatuhan keamanan kami untuk cara cakupan pengenal cocok dalam tumpukan perlindungan GDPR.
SIREN dan SIRET: ID Bisnis dalam File Pribadi
SIREN: ID perusahaan Prancis 9 digit dengan digit cek Luhn. Muncul di semua dokumen komersial Prancis.
SIRET: Nomor 14 digit yang dibangun dari SIREN (9 digit) ditambah kode lokasi (5 digit). SIRET menamai sebuah situs. SIREN menamai perusahaan.
File bisnis sering menyimpan nomor SIRET di samping nama staf. CNIL memperlakukan SIRET ditambah nama sebagai data pribadi. Pasangan itu memicu aturan GDPR bahkan tanpa bidang data pribadi terpisah.
Enam Langkah Anonimisasi untuk Pelatihan AI
Panduan AI CNIL 2024 mencakup enam jenis data. Masing-masing harus ditangani sebelum menggunakan data pribadi Prancis dalam pelatihan AI:
- Hapus pengenal langsung — Nama, NIR, SIREN harus diganti atau dihapus
- Generalisasi quasi-identifier — Usia, departemen, profesi dapat digabungkan untuk mengidentifikasi ulang orang; kurangi presisinya
- Tambahkan noise ke angka — Bidang numerik memerlukan noise yang dikalibrasi untuk memblokir inferensi
- Periksa k-anonymity — Setiap orang harus terlihat seperti setidaknya k-1 orang lain; CNIL menunjuk k ≥ 5
- Periksa l-diversity — Atribut sensitif harus bervariasi dalam setiap kelompok
- Jalankan pemeriksaan risiko re-identifikasi — Gunakan metode yang terdokumentasi sebelum pelepasan data apa pun
Menghapus NIR dan nama lengkap saja tidak cukup. CNIL telah menemukan ini dalam penegakan hukum. Quasi-identifier seperti kode pos dan spesialisasi medis juga memerlukan penanganan.
Panduan kepatuhan GDPR kami mencakup catatan yang diharapkan audit DPA Prancis.
Konteks Bahasa untuk Deteksi PII Prancis
Prancis memiliki beberapa konteks linguistik yang memengaruhi deteksi.
Bahasa Prancis standar adalah bahasa semua dokumen resmi. Model NER harus menangani huruf beraksen: é, è, ê, ë, à, â, î, ô, û, ç, œ.
Wilayah seberang lautan (DOM-TOM): Martinik, Guadeloupe, Réunion, Guyane, dan Mayotte menggunakan kode NIR dalam rentang 97–98. Pola nama lokal berbeda dari Prancis daratan.
Alsace-Moselle: Nama beroriginal Jerman dan beberapa format dokumen Jerman muncul dalam catatan Prancis. Model yang hanya dilatih pada bahasa Prancis standar mungkin melewatkan ini.
Penggunaan lintas batas: Bahasa Prancis Belgia menggunakan format ID yang berbeda. Alat yang digunakan di Prancis dan Belgia memerlukan aturan untuk masing-masing.
Apa yang Harus Dicakup Alat Anda
Kepatuhan Prancis memerlukan empat kemampuan teknis:
- NIR dengan pemeriksaan mod-97 — Pencocokan pola saja gagal. Alat harus menjalankan pemeriksaan kunci dan menangani kode 2A/2B.
- SIREN/SIRET dengan pemeriksaan Luhn — ID bisnis muncul dalam file pribadi dan menciptakan kombinasi nama yang dilindungi GDPR.
- NER bahasa Prancis dengan dukungan aksen penuh — Harus menangani nama majemuk (Jean-Pierre), partikel (de, du, des), dan karakter beraksen.
- Proses enam langkah yang terdokumentasi — Pipeline pelatihan AI apa pun pada data Prancis memerlukan catatan tertulis untuk setiap aktivitas anonimisasi.