Tekrar Üretilebilir Gizlilik: Neden ML Ekiplerinin Sadece Dokümantasyon Değil, Konfigürasyon Ön Ayarlarına İhtiyacı Var
DPO, anonimleştirme prosedürü belgesini onayladı. Bu belge: eğitim veri setlerinden isimleri, e-postaları, telefon numaralarını ve doğum tarihlerini Replace yöntemi ile kaldırmayı belirtir. Belge 4 sayfadır ve uyum wiki'sinde bulunmaktadır.
On iki veri bilimcisi, proje başlangıcında buna danışır. Kendi anonimleştirme aracının versiyonlarını yapılandırırlar. Bazıları ulusal kimlik numaraları ekler. Bazıları IP adreslerini dahil eder. Bazıları Replace yerine Redact kullanır. Üç ay sonra, eğitim veri setleri tutarsızdır.
CNIL (Fransa'nın DPA'sı), 2024 yılında kişisel verileri eğitim veri setlerinde uygunsuz bir şekilde kullanan birçok AI şirketini araştırdı. Araştırmalar, yalnızca anonimleştirmenin gerçekleşip gerçekleşmediğini değil, bunun ne kadar tutarlı uygulandığını da inceledi.
Dokümantasyon gereklidir. Yeterli değildir. Teknik çözüm ön ayardır.
Neden ML Eğitim Verileri Belirli Konfigürasyon Gerektirir
ML eğitim verilerinin anonimleştirilmesi, genel belge anonimleştirmesinin gerektirmediği gereksinimlere sahiptir:
Replace, Redact Değil: İsimlerin [REDACTED] tokenları ile değiştirildiği metinlerde eğitilen sinirsel dil modelleri, [REDACTED]'in isim pozisyonlarında görünen özel bir tanımlayıcı olduğunu öğrenir. Bu, istenmeyen model davranışları yaratır. Replace yöntemi ("John Smith" yerine "David Chen" koymak), isimlerin tanımlayıcı bilgilerini kaldırırken metindeki istatistiksel dağılımını korur. Model, maske tokenından değil, gerçekçi isim pozisyonu dağılımlarından öğrenir.
Veri seti boyunca tutarlılık: İsimlerin %70'inin değiştirildiği ve %30'unun [REDACTED] olduğu bir eğitim veri seti, tutarsız bir eğitim sinyali üretir. Tüm kayıtlar aynı şekilde işlenmelidir.
Tutarlı varlık seçimi: Eğitim veri seti sağlık verisi içeriyorsa, bazı kayıtlarda isimlerin kaldırılması ancak doğum tarihlerinin kaldırılmaması tutarsızlık yaratır. Tüm 12 veri bilimcisi aynı varlık türü setini kaldırmalıdır.
Aşırı anonimleştirme olmamalıdır: Replace yöntemi aşırı uygulanırsa — yalnızca zaman damgaları olan tarihleri kaldırmak, doğum tarihi değil — veri setinin kullanılabilirliğini azaltır, uyumu artırmaz. Onaylı ön ayar, hangi tarih varlıklarının kaldırılacağını (doğum tarihi, genel zaman damgaları değil) tam olarak tanımlar.
Çalışmalar arasında tekrar üretilebilirlik: Aynı veri setinin yeniden işlenmesi gerekiyorsa (örneğin, kaçırılan bir varlık türü tespit edildikten sonra), aynı ön ayar ile yeniden işleme tutarlı bir çıktı üretir. Geçici yapılandırmalar tekrar üretilebilir değildir.
12 Veri Bilimcisi Sorunu
Bir Avrupa fintech şirketinin ML ekibi, müşteri etkileşim günlüklerinden türetilen bir eğitim veri seti kullanıyor. DPO, işleme amacını (dolandırıcılık tespiti için model eğitimi) şartlarla onayladı: tüm müşteri isimleri, e-postaları, telefon numaraları ve ödeme tanımlayıcıları, herhangi bir model eğitimi öncesinde Replace yöntemi ile değiştirilmelidir.
Ön ayar olmadan:
- Veri bilimcisi 1 isimleri, e-postaları, telefon numaralarını kaldırır (ödeme tanımlayıcılarını dahil etmez)
- Veri bilimcisi 2 ödeme tanımlayıcılarını dahil eder ancak Redact kullanır, Replace değil
- Veri bilimcisi 3 prosedür belgesini tam olarak takip eder
- Veri bilimcileri 4-12 değişir
Sonuç: Eğitim verilerinin 12 farklı işlenmiş versiyonu. Birleştirilmiş veri seti kısmen uyumsuz, kısmen aşırı anonimleştirilmiş ve istatistiksel olarak tutarsızdır.
DPO onaylı ön ayar ile:
- DPO, tam varlık türleri ve Replace yöntemi ile "ML Eğitim — Dolandırıcılık Tespiti" ön ayarını oluşturur
- Ön ayar, tüm 12 veri bilimcisi ile "Tüm eğitim verisi hazırlığı için bu ön ayarı kullanın" talimatıyla paylaşılır
- Ön ayar, DPO incelemesi olmadan değiştirilemez (konfigürasyon erişim kontrolü)
Sonuç: Tüm 12 veri bilimcisi aynı anonimleştirme çıktısını üretir. Birleştirilmiş veri seti tutarlıdır. Yıllık AI uyum denetimi bulgu olmadan geçer.
Önceki yıl: tutarsız ML eğitim verisi anonimleştirmesi ile ilgili 3 bulgu. Ön ayardan sonra: 0 bulgu.
GDPR AI Yasası Kesişimi
AB AI Yasası (Ağustos 2024'ten itibaren geçerli), kişisel verileri eğitim için kullanan AI sistemleri için uyum gereksinimleri ekler. Yüksek riskli AI sistemleri, uygulanan anonimleştirme önlemleri de dahil olmak üzere eğitim verilerini belgelemek zorundadır.
GDPR'nın amaç sınırlaması ilkesi (Madde 5(1)(b)), kişisel verilerin ML eğitimi için belirli bir yasal dayanak olmadan kullanılmasını sınırlar. CNIL'in 2024'te AI şirketlerine karşı yürüttüğü yaptırım eylemleri, bu kesişime odaklandı: hizmet sunumu için toplanan kişisel verilerin, yeterli yasal dayanak veya anonimleştirme olmadan eğitim için kullanılması.
Hem GDPR'nın hem de AI Yasası'nın belge gereksinimleri, eğitim verilerinin anonimleştirme süreci teknik olarak ön ayarlar aracılığıyla uygulandığında daha kolay karşılanır:
- Ön ayar adı ve konfigürasyonu: belgelenmiş anonimleştirme metodolojisi
- İşleme günlükleri: metodolojinin belirli veri setlerine uygulandığını gösteren kanıt
- DPO onayı: ön ayar konfigürasyonunu yetkilendiren kayıtlı karar
Bu, her iki düzenlemenin de gerektirdiği denetim izini oluşturur.
ML Eğitim Verileri için Ön Ayar Konfigürasyonu
Çoğu NLP eğitim verisi için varlık türleri:
- PERSON (isimler — benzer isimlerle değiştir)
- EMAIL_ADDRESS (sentetik e-postalarla değiştir)
- PHONE_NUMBER (sentetik telefon numaralarıyla değiştir)
- CREDIT_CARD / IBAN (değiştir veya Redact — ödeme verisi)
- LOCATION (model için coğrafya gerekiyorsa benzer yerlerle değiştir; gerekmediğinde Redact)
- DATE_OF_BIRTH (Redact — yaş genellemesi genellikle gereklidir)
NLP eğitim verileri için genellikle DAHİL EDİLMEYEN varlık türleri:
- Genel tarihler (doğum tarihi değil) — zaman damgaları ve metindeki tarihler genellikle zamansal modelleme için gereklidir
- Organizasyon isimleri — varlık tanıma eğitimi için genellikle gereklidir
- URL'ler — bağlantı ve referans çıkarımı için genellikle gereklidir
ML lideri ve DPO, onaylı ön ayarda bu ayrımları tanımlar. Bireysel veri bilimcileri bu kararları vermez — ön ayarı uygularlar.
Kurumsal Bilgi ve Ön Ayar Sürümlemesi
Ön ayarlar kurumsal hafıza işlevi görür:
Ön ayarlar olmadan: ML eğitim verileri için doğru varlık konfigürasyonu, uyum inceleme sürecinden geçmiş üç veri bilimcisinin aklında bulunuyordu. İkisi Q3'te ayrıldığında, kurumsal bilgi kayboldu.
Ön ayarlar ile: Konfigürasyon "ML Eğitim — Müşteri Verisi v2.1" olarak kodlanmıştır. Sürüm geçmişi, ne zaman oluşturulduğunu, kimin onayladığını ve v2.0 ile v2.1 arasındaki değişiklikleri gösterir. Yeni veri bilimcileri ön ayarı kullanır ve içindeki kurumsal bilgiyi miras alır.
Sürüm 2.1, bir uyum incelemesi sırasında eksik olduğu tespit edilen IBAN tespitini ekledi. Sürüm 2.0 kayıtları, Şubat 2025'te onaylandığını gösterir. Denetim izi tamamdır.
Sonuç
Dokümantasyon, ekip üyelerine ne yapacaklarını söyler. Ön ayarlar, bunu tutarlı bir şekilde yapmayı teknik olarak kolaylaştırır — ve teknik olarak uygulanabilir hale getirir.
Özellikle ML eğitim verileri için tutarlılık, hem bir uyum gereksinimi (GDPR, AI Yasası) hem de bir teknik gereksinimdir (model eğitimi tutarlı ön işleme gerektirir). Ön ayar, her ikisini aynı anda karşılar.
CNIL ve diğer DPA'lar, AI eğitim verisi uygulamalarını araştırırken sistematik, tutarlı anonimleştirme kanıtı arayacaktır. Tüm eğitim verisi hazırlığı boyunca eşit şekilde uygulanan bir ön ayar, mevcut en güçlü kanıttır.
Kaynaklar: