Yeniden Üretilebilir Gizlilik: ML Ekiplerinin Neden Belgeler Değil Ön Ayarlara İhtiyacı Var

VKO anonimleştirme planını onayladı. Dört öğeyi kapsamaktadır: isimler, e-postalar, telefon numaraları ve doğum tarihleri. Yöntem Değiştir'dir. Plan dört sayfadır ve uyumluluk wikisinde yaşar.

On iki veri bilimcisi bunu başlangıç toplantısında okudu. Her biri aracı kendi başına kurdu. Kimileri ulusal kimlikler ekledi. Kimileri IP adresleri ekledi. Kimileri Sil'e geçti. Üç ay sonra veri kümeleri tutarlı değil.

CNIL 2024'te çeşitli yapay zeka firmalarını inceledi. Sorun: modellerin eğitiminde kişisel ayrıntıların uygunsuz kullanımı. Yalnızca anonimleştirmenin gerçekleşip gerçekleşmediğini sormadılar. Ne kadar tutarlı uygulandığını sordular.

Belgeler gereklidir. Yeterli değildir. Düzeltme ön ayardır.

ML Model Veri Kümelerinin Neden Kendi Yapılandırmasına İhtiyacı Var

Model veri kümeleri oluşturmanın kendine özgü gereksinimleri vardır. Genel belge anonimleştirmesi bunları paylaşmaz.

Sil değil, Değiştir. İsimlerin [SİLİNDİ] haline geldiği metinler üzerinde eğitilen modeller, bu belirteci isim konumu işaretçisi olarak öğrenir. Bu modele zarar verir. Değiştir, "Ahmet Yılmaz"ı "Mehmet Kaya" ile değiştirir. Model gerçek isim kalıplarını görür. Maske belirtecini değil.

Tüm kayıtlar için aynı süreç. İsimlerin %70'inin değiştirildiği ve %30'unun [SİLİNDİ] olduğu bir veri kümesi karışık sinyal gönderir. Her kayıt aynı adımlardan geçmelidir.

Aynı varlık listesi. Veri kümesi sağlık ayrıntıları içeriyorsa bazı kayıtlarda isimleri kaldırıp doğum tarihlerini bırakmak boşluklar oluşturur. On iki veri bilimcisinin tamamı aynı türleri kaldırmalıdır.

Aşırı kaldırma yok. Doğum tarihi değil zaman damgası olan tarihleri kaldırmak, uyumluluk kazanımı olmadan veri kümesi kalitesini düşürür. Onaylanmış ön ayar tam olarak hangi öğelerin kaldırılacağını belirtir.

Yeniden üretilebilir çıktı. Bir veri kümesinin yeniden çalıştırılması gerekiyorsa — mesela, gözden kaçan bir varlık türü bulunduktan sonra — ön ayar her seferinde aynı sonucu verir. Geçici yapılandırmalar vermez.

On İki Veri Bilimcisi Sorunu

Avrupada bir fintech ML ekibi, müşteri günlüklerinden veri kümeleri kullanmaktadır. VKO amacı onayladı — dolandırıcılık tespiti — tek bir kuralla: tüm müşteri isimleri, e-postalar, telefon numaraları ve ödeme kimlikleri model çalışması başlamadan önce değiştirilmelidir.

Ön ayarlar olmadan:

Kişi 1 isimleri, e-postaları ve telefon numaralarını kaldırır — ancak ödeme kimliklerini gözden kaçırır
Kişi 2 ödeme kimliklerini içerir ancak Değiştir yerine Sil kullanır
Kişi 3 plan belgesini tam olarak takip eder
Kişi 4–12 farklılık gösterir

Birleştirilmiş veri kümesi kısmen uyumsuzdur ve kısmen aşırı işlenmiştir. VKO onu onaylayamaz.

VKO tarafından onaylanan ön ayarla:

VKO tam varlık türleri ve Değiştir yöntemiyle "ML Geliştirme — Dolandırıcılık Tespiti" oluşturur
Ön ayar tek bir kuralla on iki kişiye gönderilir: tüm veri kümesi çalışmaları için bunu kullanın
VKO onayı olmadan kimse ön ayarı değiştiremez

Artık herkes aynı çıktıyı üretir. Birleştirilmiş veri kümesi tutarlıdır. Yıllık yapay zeka denetimi sıfır bulguyla geçer. Önceki yılda tutarsız veri kümesi çalışmasından kaynaklanan üç bulgu vardı.

2026 için güncellendi

AB Yapay Zeka Yasası Ağustos 2024'te tam olarak yürürlüğe girdi. Model çalışmaları için kişisel ayrıntılar kullanan yapay zeka sistemlerine kurallar ekler. Yüksek riskli yapay zeka sistemleri, uygulanan anonimleştirme dahil olmak üzere veri kümelerini belgelemek zorundadır.

GDPR Madde 5(1)(b) — amaç sınırlama kuralı — açık yasal dayanak olmadan kişisel ayrıntıların kullanımını engeller. CNIL'in 2024 vakaları bu boşluğa odaklanmıştır: bir hizmet için toplanan ayrıntılar, geçerli bir dayanak veya anonimleştirme olmaksızın model çalışması için kullanılmıştır.

Ön ayarlar her iki kural kümesini de karşılamaya yardımcı olur:

Ön ayar adı ve yapılandırması: belgelenmiş yöntem
İşleme kayıtları: yöntemin uygulandığının kanıtı
VKO onayı: yapılandırma üzerinde kayıtlı onay

Bu, her iki yasanın da gerektirdiği denetim izini oluşturur. Madde 10 yükümlülükleri için bkz. AB Yapay Zeka Yasası eğitim verisi kılavuzu.

NLP Model Veri Kümeleri için Ön Ayar Yapılandırması

Çoğu NLP model veri kümesine dahil edilecek türler:

KİŞİ — Benzer isimlerle değiştir
E_POSTA_ADRESİ — Sentetik adreslerle değiştir
TELEFON_NUMARASI — Sentetik numaralarla değiştir
KREDİ_KARTI / IBAN — Değiştir veya Sil
KONUM — Konum önemliyse benzer yerlerle değiştir; değilse Sil
DOĞUM_TARİHİ — Sil; yaş gruplandırması genellikle gereklidir

Sıklıkla hariç tutulan türler:

Genel tarihler — zaman damgaları zamansal modellere yardımcı olur
Kuruluş isimleri — adlandırılmış varlık modellerine yardımcı olur
URL'ler — bağlantı ve referans modellerine yardımcı olur

ML sorumlusu ve VKO bu kuralları onaylanmış ön ayarda belirler. Ekip üyeleri uygular. Yapılandırma seçimleri yapmazlar.

Kurumsal Hafıza Olarak Ön Ayarlar

Ön ayarlardan önce. Doğru varlık yapılandırması, uyumluluk incelemesinden geçmiş üç veri bilimcisinin zihninde yaşıyordu. İkisi Q3'te ayrıldı. Bilgi de onlarla gitti.

Ön ayarlardan sonra. Yapılandırma "ML Geliştirme — Müşteri Kayıtları v2.1"de yaşar. Sürüm günlüğü ne zaman oluşturulduğunu, kimin onayladığını ve v2.0'dan neyin değiştiğini gösterir. Yeni ekip üyeleri ön ayarı kullanır ve içine yerleştirilmiş tüm bilgilere erişir.

Sürüm 2.1, bir incelemenin eksik olduğunu ortaya çıkarmasının ardından IBAN tespitini ekledi. Sürüm 2.0 Şubat 2025'te onaylandı. Günlük tamamdır.

İşleme kayıtları ve VKO inceleme akışlarının nasıl çalıştığına dair bilgi için bkz. GDPR ML eğitim anonimleştirme kılavuzu.

Ön Ayarlar ve CNIL Kalıbı

CNIL'in 2024 yapay zeka vakaları net bir kalıp oluşturdu. Sadece neyin kaldırıldığını değil, nasıl yönetildiğini sorarlar. VKO onay kaydı ve işleme günlükleriyle birlikte paylaşılan bir ön ayar bunu doğrudan yanıtlar.

Geçici bir yapılandırma yanıtlamaz. CNIL mantığını takip eden diğer AB VKK vakalarında da aynı boşluk mevcuttur. CNIL yapay zeka yaklaşımı hakkında daha fazlası için bkz. CNIL Fransa GDPR yapay zeka uyumluluk kılavuzu.

Sonuç

Belgeler ekip üyelerine ne yapacaklarını söyler. Ön ayarlar, her seferinde aynı şekilde yapılmasını kolay — ve uygulanabilir — kılar.

ML model veri kümeleri için tutarlılık hem yasal hem de teknik bir gerekliliktir. Ön ayar her ikisini aynı anda karşılar.

Yapay zeka uygulamalarına bakan VKK'lar, tekdüze anonimleştirmenin kanıtını ister. Tüm veri kümesi çalışmalarında aynı şekilde uygulanan bir ön ayar, verebileceğiniz en net kanıttır.

Kaynaklar

İlgili Makaleler

Teknik

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

Ücretsiz Deneme Başlat Özellikleri Görüntüle

Yeniden Üretilebilir Gizlilik: ML Ön Ayarları

Yeniden Üretilebilir Gizlilik: ML Ekiplerinin Neden Belgeler Değil Ön Ayarlara İhtiyacı Var

ML Model Veri Kümelerinin Neden Kendi Yapılandırmasına İhtiyacı Var

On İki Veri Bilimcisi Sorunu

NLP Model Veri Kümeleri için Ön Ayar Yapılandırması

Kurumsal Hafıza Olarak Ön Ayarlar

Ön Ayarlar ve CNIL Kalıbı

Sonuç

Kaynaklar

İlgili Makaleler

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Verilerinizi korumaya hazır mısınız?

Yeniden Üretilebilir Gizlilik: ML Ön Ayarları

Yeniden Üretilebilir Gizlilik: ML Ekiplerinin Neden Belgeler Değil Ön Ayarlara İhtiyacı Var

ML Model Veri Kümelerinin Neden Kendi Yapılandırmasına İhtiyacı Var

On İki Veri Bilimcisi Sorunu

GDPR ve Yapay Zeka Yasası

NLP Model Veri Kümeleri için Ön Ayar Yapılandırması

Kurumsal Hafıza Olarak Ön Ayarlar

Ön Ayarlar ve CNIL Kalıbı

Sonuç

Kaynaklar

İlgili Makaleler

Cross-Platform PII: Mac, Linux, and Windows

Cross-Application PII: Word, Chrome, and AI

GDPR in App Logs: JSON PII Compliance

Verilerinizi korumaya hazır mısınız?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow