Yeniden Üretilebilir Gizlilik: ML Ekiplerinin Neden Belgeler Değil Ön Ayarlara İhtiyacı Var
VKO anonimleştirme planını onayladı. Dört öğeyi kapsamaktadır: isimler, e-postalar, telefon numaraları ve doğum tarihleri. Yöntem Değiştir'dir. Plan dört sayfadır ve uyumluluk wikisinde yaşar.
On iki veri bilimcisi bunu başlangıç toplantısında okudu. Her biri aracı kendi başına kurdu. Kimileri ulusal kimlikler ekledi. Kimileri IP adresleri ekledi. Kimileri Sil'e geçti. Üç ay sonra veri kümeleri tutarlı değil.
CNIL 2024'te çeşitli yapay zeka firmalarını inceledi. Sorun: modellerin eğitiminde kişisel ayrıntıların uygunsuz kullanımı. Yalnızca anonimleştirmenin gerçekleşip gerçekleşmediğini sormadılar. Ne kadar tutarlı uygulandığını sordular.
Belgeler gereklidir. Yeterli değildir. Düzeltme ön ayardır.
ML Model Veri Kümelerinin Neden Kendi Yapılandırmasına İhtiyacı Var
Model veri kümeleri oluşturmanın kendine özgü gereksinimleri vardır. Genel belge anonimleştirmesi bunları paylaşmaz.
Sil değil, Değiştir. İsimlerin [SİLİNDİ] haline geldiği metinler üzerinde eğitilen modeller, bu belirteci isim konumu işaretçisi olarak öğrenir. Bu modele zarar verir. Değiştir, "Ahmet Yılmaz"ı "Mehmet Kaya" ile değiştirir. Model gerçek isim kalıplarını görür. Maske belirtecini değil.
Tüm kayıtlar için aynı süreç. İsimlerin %70'inin değiştirildiği ve %30'unun [SİLİNDİ] olduğu bir veri kümesi karışık sinyal gönderir. Her kayıt aynı adımlardan geçmelidir.
Aynı varlık listesi. Veri kümesi sağlık ayrıntıları içeriyorsa bazı kayıtlarda isimleri kaldırıp doğum tarihlerini bırakmak boşluklar oluşturur. On iki veri bilimcisinin tamamı aynı türleri kaldırmalıdır.
Aşırı kaldırma yok. Doğum tarihi değil zaman damgası olan tarihleri kaldırmak, uyumluluk kazanımı olmadan veri kümesi kalitesini düşürür. Onaylanmış ön ayar tam olarak hangi öğelerin kaldırılacağını belirtir.
Yeniden üretilebilir çıktı. Bir veri kümesinin yeniden çalıştırılması gerekiyorsa — mesela, gözden kaçan bir varlık türü bulunduktan sonra — ön ayar her seferinde aynı sonucu verir. Geçici yapılandırmalar vermez.
On İki Veri Bilimcisi Sorunu
Avrupada bir fintech ML ekibi, müşteri günlüklerinden veri kümeleri kullanmaktadır. VKO amacı onayladı — dolandırıcılık tespiti — tek bir kuralla: tüm müşteri isimleri, e-postalar, telefon numaraları ve ödeme kimlikleri model çalışması başlamadan önce değiştirilmelidir.
Ön ayarlar olmadan:
- Kişi 1 isimleri, e-postaları ve telefon numaralarını kaldırır — ancak ödeme kimliklerini gözden kaçırır
- Kişi 2 ödeme kimliklerini içerir ancak Değiştir yerine Sil kullanır
- Kişi 3 plan belgesini tam olarak takip eder
- Kişi 4–12 farklılık gösterir
Birleştirilmiş veri kümesi kısmen uyumsuzdur ve kısmen aşırı işlenmiştir. VKO onu onaylayamaz.
VKO tarafından onaylanan ön ayarla:
- VKO tam varlık türleri ve Değiştir yöntemiyle "ML Geliştirme — Dolandırıcılık Tespiti" oluşturur
- Ön ayar tek bir kuralla on iki kişiye gönderilir: tüm veri kümesi çalışmaları için bunu kullanın
- VKO onayı olmadan kimse ön ayarı değiştiremez
Artık herkes aynı çıktıyı üretir. Birleştirilmiş veri kümesi tutarlıdır. Yıllık yapay zeka denetimi sıfır bulguyla geçer. Önceki yılda tutarsız veri kümesi çalışmasından kaynaklanan üç bulgu vardı.
GDPR ve Yapay Zeka Yasası
2026 için güncellendi
AB Yapay Zeka Yasası Ağustos 2024'te tam olarak yürürlüğe girdi. Model çalışmaları için kişisel ayrıntılar kullanan yapay zeka sistemlerine kurallar ekler. Yüksek riskli yapay zeka sistemleri, uygulanan anonimleştirme dahil olmak üzere veri kümelerini belgelemek zorundadır.
GDPR Madde 5(1)(b) — amaç sınırlama kuralı — açık yasal dayanak olmadan kişisel ayrıntıların kullanımını engeller. CNIL'in 2024 vakaları bu boşluğa odaklanmıştır: bir hizmet için toplanan ayrıntılar, geçerli bir dayanak veya anonimleştirme olmaksızın model çalışması için kullanılmıştır.
Ön ayarlar her iki kural kümesini de karşılamaya yardımcı olur:
- Ön ayar adı ve yapılandırması: belgelenmiş yöntem
- İşleme kayıtları: yöntemin uygulandığının kanıtı
- VKO onayı: yapılandırma üzerinde kayıtlı onay
Bu, her iki yasanın da gerektirdiği denetim izini oluşturur. Madde 10 yükümlülükleri için bkz. AB Yapay Zeka Yasası eğitim verisi kılavuzu.
NLP Model Veri Kümeleri için Ön Ayar Yapılandırması
Çoğu NLP model veri kümesine dahil edilecek türler:
- KİŞİ — Benzer isimlerle değiştir
- E_POSTA_ADRESİ — Sentetik adreslerle değiştir
- TELEFON_NUMARASI — Sentetik numaralarla değiştir
- KREDİ_KARTI / IBAN — Değiştir veya Sil
- KONUM — Konum önemliyse benzer yerlerle değiştir; değilse Sil
- DOĞUM_TARİHİ — Sil; yaş gruplandırması genellikle gereklidir
Sıklıkla hariç tutulan türler:
- Genel tarihler — zaman damgaları zamansal modellere yardımcı olur
- Kuruluş isimleri — adlandırılmış varlık modellerine yardımcı olur
- URL'ler — bağlantı ve referans modellerine yardımcı olur
ML sorumlusu ve VKO bu kuralları onaylanmış ön ayarda belirler. Ekip üyeleri uygular. Yapılandırma seçimleri yapmazlar.
Kurumsal Hafıza Olarak Ön Ayarlar
Ön ayarlardan önce. Doğru varlık yapılandırması, uyumluluk incelemesinden geçmiş üç veri bilimcisinin zihninde yaşıyordu. İkisi Q3'te ayrıldı. Bilgi de onlarla gitti.
Ön ayarlardan sonra. Yapılandırma "ML Geliştirme — Müşteri Kayıtları v2.1"de yaşar. Sürüm günlüğü ne zaman oluşturulduğunu, kimin onayladığını ve v2.0'dan neyin değiştiğini gösterir. Yeni ekip üyeleri ön ayarı kullanır ve içine yerleştirilmiş tüm bilgilere erişir.
Sürüm 2.1, bir incelemenin eksik olduğunu ortaya çıkarmasının ardından IBAN tespitini ekledi. Sürüm 2.0 Şubat 2025'te onaylandı. Günlük tamamdır.
İşleme kayıtları ve VKO inceleme akışlarının nasıl çalıştığına dair bilgi için bkz. GDPR ML eğitim anonimleştirme kılavuzu.
Ön Ayarlar ve CNIL Kalıbı
CNIL'in 2024 yapay zeka vakaları net bir kalıp oluşturdu. Sadece neyin kaldırıldığını değil, nasıl yönetildiğini sorarlar. VKO onay kaydı ve işleme günlükleriyle birlikte paylaşılan bir ön ayar bunu doğrudan yanıtlar.
Geçici bir yapılandırma yanıtlamaz. CNIL mantığını takip eden diğer AB VKK vakalarında da aynı boşluk mevcuttur. CNIL yapay zeka yaklaşımı hakkında daha fazlası için bkz. CNIL Fransa GDPR yapay zeka uyumluluk kılavuzu.
Sonuç
Belgeler ekip üyelerine ne yapacaklarını söyler. Ön ayarlar, her seferinde aynı şekilde yapılmasını kolay — ve uygulanabilir — kılar.
ML model veri kümeleri için tutarlılık hem yasal hem de teknik bir gerekliliktir. Ön ayar her ikisini aynı anda karşılar.
Yapay zeka uygulamalarına bakan VKK'lar, tekdüze anonimleştirmenin kanıtını ister. Tüm veri kümesi çalışmalarında aynı şekilde uygulanan bir ön ayar, verebileceğiniz en net kanıttır.