Fransa'nın Commission Nationale de l'Informatique et des Libertés (CNIL), AB'nin en teknik olarak talepkar veri koruma otoritesidir. Diğer DPAlar esas olarak prosedürel uyuma odaklanırken, CNIL, anonimleştirme, takma ad verme ve AI veri yönetimi için belirli algoritmik standartlar belirleyen ayrıntılı teknik kılavuzlar — "recommandations" — yayınlamaktadır. 2024'te CNIL'in resmi bildirimlerinin %63'ü AI sistemlerinde yetersiz anonimleştirmeyi belirtmiştir.
CNIL'in Fransa Dışındaki Teknik Etkisi
CNIL'in teknik kılavuzları diğer AB DPAları tarafından sıkça alıntılanmaktadır:
Anonimleştirme Pratik Kılavuzu (2023): CNIL'in pratik anonimleştirme kılavuzu, k-anonimlik, l-çeşitlilik, diferansiyel gizlilik ve bunların Fransız veri setlerine pratik uygulamalarını kapsamaktadır. 12'den fazla AB DPA'sı, kendi uygulama kılavuzlarında bu kılavuzu referans göstermektedir (IMY İsveç dahil, CNIL metodolojisine kısmen dayanan kendi versiyonunu üretmiştir).
AI sistemleri kılavuzu (2024): CNIL'in AI yönetimi kılavuzu, AI eğitim verileri için 6 zorunlu anonimleştirme kategorisini kapsamaktadır — bu konudaki en spesifik AB DPA kılavuzu.
Çerez teknik gereksinimleri: CNIL'in çerez uygulama kılavuzu (düzenli olarak güncellenmektedir) onay yönetim platformları için belirli teknik uygulamalar gerektirmektedir — AB'deki onay teknolojisi için en teknik olarak spesifik DPA kılavuzu.
NIR: Fransa'nın En Hassas Tanımlayıcısı
Numéro d'Inscription au Répertoire (NIR) — aynı zamanda sosyal güvenlik numarası olarak da bilinir — aşağıdaki formatta 15 haneli bir Fransız sosyal güvenlik numarasıdır:
S AAMMDDCCC OOO K
Burada:
- S = 1 haneli: cinsiyet (1=erkek, 2=kadın)
- AA = 2 haneli: doğum yılı
- MM = 2 haneli: doğum ayı
- DD = 2 haneli: doğum departmanı (01-95, 2A/2B Korsika için, 97-99 denizaşırı bölgeler için, 99 yabancı doğum için)
- CCC = 3 haneli: departman içindeki belediye kodu
- OOO = 3 haneli: doğum sırası numarası
- K = 2 haneli: kontrol anahtarı (97 - (NIR mod 97))
NIR, cinsiyet, doğum tarihi, doğum yeri ve doğum sırası kodlamaktadır — bu da onu AB'deki en bilgi zengin ulusal tanımlayıcılardan biri yapmaktadır. CNIL, NIR'yi özel kategori verilerine eşdeğer olarak artırılmış koruma gerektiren bir veri olarak sınıflandırmaktadır.
Tespit zorluğu: Genel NLP araçları, CNIL'in 2024 analizine göre belgelerin %78'inde NIR'yi göz ardı etmektedir. Belirli hatalar:
- NIR'nin 15 haneli yapısı (birçok belgede ayırıcı olmadan) diğer uzun sayı dizileriyle karıştırılmaktadır
- Departman/municipality kodlaması (7-11. haneler) doğrulamak için coğrafi bilgi gerektirmektedir — mod-97 anahtar hesaplamasını uygulamayan araçlar geçerli NIR numaralarını yanlış pozitiflerden ayıramamaktadır
- Korsika departmanları (2A/2B — harfler, rakamlar değil) yalnızca sayısal karakterler bekleyen desen eşleştirme araçlarını bozmakta
SIREN/SIRET: Fransız Belgelerindeki İşletme Tanımlayıcıları
SIREN numarası: Luhn kontrol rakamı ile birlikte 9 haneli Fransız şirket tanımlama numarası. Tüm Fransız ticari belgelerde görünmektedir.
SIRET numarası: SIREN'in 14 haneli uzantısı (9 haneli SIREN + 5 haneli kuruluş numarası). SIRET, belirli bir işletme kuruluşunu benzersiz bir şekilde tanımlarken, SIREN şirket varlığını tanımlar.
Ticari belgeler sıklıkla SIRET numaralarını şirket temsilcilerinin kişisel verileriyle birlikte içermektedir — CNIL'in uygulama kılavuzu, SIRET + bireysel isim kombinasyonunu, GDPR yükümlülüklerini tetikleyen tanımlanabilir bilgi olarak ele almaktadır.
CNIL'in AI Anonimleştirme Gereksinimleri
CNIL'in 2024 AI kılavuzu, Fransız kişisel verilerini içeren AI eğitim verileri için 6 spesifik anonimleştirme kategorisi gerektirmektedir:
- Tanımlayıcı kaldırma: Açık tanımlayıcılar (isim, NIR, SIREN) takma adlarla değiştirilmelidir veya kaldırılmalıdır
- Küsi-tanımlayıcı genelleme: Yeniden tanımlamayı mümkün kılabilecek özellikler (yaş, departman, meslek) genelleştirilmelidir
- Gürültü ekleme: Sayısal özelliklere, çıkarımı önlemek için kalibre edilmiş gürültü eklenmelidir
- k-anonimlik doğrulaması: Veri setindeki her birey, en az k-1 diğerinden ayırt edilemez olmalıdır (CNIL, k≥5 önerir)
- l-çeşitlilik doğrulaması: Hassas özellik değerleri, her eşdeğer sınıf içinde yeterli çeşitliliğe sahip olmalıdır
- Yeniden tanımlama risk değerlendirmesi: Yayınlanmadan önce, veri setleri belgelenmiş metodoloji kullanılarak yeniden tanımlama risk değerlendirmesine tabi tutulmalıdır
CNIL, bir veri setinden NIR ve tam ismin basitçe kaldırılmasının yeterli anonimleştirme olmadığını açıkça belirtmiştir. Ek küsi-tanımlayıcılar (yaş, posta kodu, meslek, tıbbi uzmanlık) de ele alınmalıdır.
İki Dilli Fransız/Bölgesel Dil Bağlamı
Fransa'nın PII tespiti ile ilgili karmaşık bir dil durumu vardır:
Metropolitan Fransızca: Fransa'da konuşulan standart Fransızca — tüm resmi belgelerin ana dili.
DOM-TOM tanımlayıcıları: Denizaşırı bölgeler (Martinique, Guadeloupe, Réunion, Guyane, Mayotte) NIR numaralarında kendi idari kodlarına (denizaşırı departmanlar için 97, 98 ön eki) ve yerel isim geleneklerine sahiptir.
Alsas bağlamı: Alsace-Moselle bölgesi, tarihsel olarak Alman idari geleneklerine sahiptir — Alman kökenli isimler ve bazı Alman idari belge formatları Fransız idari kayıtlarında görünmektedir.
Belçika Fransızcası: Fransa ve Belçika genelinde faaliyet gösteren kuruluşlar için Fransız ve Belçika tanımlayıcı formatları farklıdır (NIR vs. Belçika ulusal kayıt numarası) ve Belçika Fransızcası biraz farklı isim gelenekleri kullanmaktadır.
Fransız uyumu için: mod-97 anahtar doğrulaması ile NIR tespiti, Luhn doğrulaması ile SIREN/SIRET tespiti, aksanlı karakter desteği ile Fransızca NER (é, è, ê, ë, à, â, î, ô, û, ç, œ) ve CNIL'in AI eğitim verileri için 6 kategorili çerçevesini karşılayan belgelenmiş anonimleştirme.
Kaynaklar: