Tek Bir Betik Yeterli Değil
Her veri bilimi ekibi şuna benzer bir şey yazmıştır:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
Bu kod e-posta adreslerini değiştirir. Yalnızca bunu yapar. Veri kümesi hâlâ isimler, telefon numaraları ve tıbbi kimlik numaraları barındırır. GDPR denetiminde başarısız olur.
"E-postaları anonimleştirdim" ile "bu veri kümesi GDPR'a uygun" arasındaki uçurum büyüktür. Ekipler bunu sürekli küçümsemektedir.
GDPR Neden ML Eğitim Kullanımını Kısıtlar
Temel kural GDPR Madde 5(1)(b)'dir. Amaç sınırlılığı ilkesi olarak bilinir. Kişisel kayıtlar yalnızca toplandıkları amaçla kullanılabilir.
Müşteri siparişleri, sipariş karşılamak için toplandı. Bir öneri modeli eğitmek için değil. Sağlık kayıtları tedavi amacıyla toplandı. Yeniden yatış tahmin modeli eğitmek için değil. Anket yanıtları ürün geri bildirimi için toplandı. Duygu sınıflandırıcısı eğitmek için değil.
Bu kayıtları ML eğitiminde kullanabilmek için ekibin üç şeyden birine ihtiyacı vardır:
- Her kişiden ML amacı için açık rıza — elde edilmesi güç, geriye dönük olarak çoğu zaman imkânsız
- ML kullanımının uyumlu olduğunu gösteren meşru menfaat değerlendirmesi — hukuken belirsiz, DPA'ya bağımlı
- Anonimleştirme — kişisel ayrıntıları değiştirerek veya kaldırarak veri kümesini GDPR kapsamından çıkarma
Düzgün anonimleştirme en yüksek hukuki güvenceyi sağlar. Zorluk ise bunu her seferinde doğru yapmaktır.
Tek Seferlik Betiklerin Sorunu
Her veri kümesi için yeni bir Python betiği yazan ekipler, katlanarak büyüyen sorunlar yaratır.
Eksik kapsam. Tek bir şema için yazılan betik yeni alanları atlar. Altı ay önce eklenen klinik notlar sütunu? Regex'te yok. İkinci ad alanı? Betik yalnızca ad ve soyad kalıplarını işliyor.
Tutarsızlık. A veri kümesi betik_v1 ile işlendi. B veri kümesi betik_v3 kullandı. C veri kümesini farklı bir ekip üyesi işledi. Birleştirilen eğitim kümesine üç farklı yöntem uygulandı. Bir VKS bunu onaylayamaz.
Denetim izi yok. Betik çalıştı. Ne değiştirdi? Hangi varlıklar bulundu? İşleme kayıtları olmadan uyum mümkün değildir. Bir DPA denetçisi "Bu eğitim kümesinin temiz olduğunu nereden biliyorsunuz?" diye sorduğunda, "Python betiği çalıştırdık" yanıtı yeterli değildir.
Model sürüklemesi. 2023'te çalışan regex kalıpları, 2024'ün yeni tanımlayıcı biçimlerini kaçırır. Betikler kendiliğinden güncellenmez.
Toplu İşleme Adım Adım
Bir sağlık yapay zekâsı ekibinin 8.000 hasta kaydını anonimleştirmesi gerekiyor. ABD ekibinin AB ofisinden erişime ihtiyacı var. Schrems II uygulanır — AB kökenli kayıtlar uygun güvenceler olmadan ABD altyapısına aktarılamaz.
Geleneksel yol: Bir veri mühendisi özel bir betik yazar. İki ila üç günlük geliştirme. Bir ila iki günlük VKS incelemesi. Bir günlük iterasyon. Toplam: dört ila altı gün. ML projesi gecikir.
Toplu işleme yolu:
- 8.000 kaydı CSV olarak dışa aktarın
- Toplu işlemeye yükleyin
- Varlık türlerini ayarlayın: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Yöntemi seçin: Replace (yapıyı korumak için gerçekçi sentetik değerler kullanır)
- İşleyin: 8.000 kayıt için 45 dakika
- Temiz CSV'yi indirin
- VKS, işleme meta verilerini inceler — kayıt başına bulunan varlıklar, uygulanan yöntemler: 2 saat
- VKS onaylar. Aktarım gerçekleşir.
Toplam süre: 45 dakika artı 2 saatlik VKS incelemesi. Dört ila altı gün yerine.
Aynı adımların Madde 10 yükümlülüklerini nasıl karşıladığını görmek için AB Yapay Zekâ Yasası eğitim kılavuzuna bakın.
ML Kullanımı için Replace mi, Redact mi?
Anonimleştirme yöntemi model kalitesini etkiler.
Redact, kişisel veriyi [REDACTED] gibi bir token ile değiştirir. Kişisel veri tespit modelleri için işe yarar. Duygu analizi, sınıflandırma, öneri gibi diğer görevler için zararlıdır. Model, [REDACTED]'ın özel bir token olduğunu öğrenir. Ad ve değerlerin doğal dağılımından öğrenemez.
Replace, "John Smith"i "David Chen" ile değiştirir. "jsmith@company.com"u "dchen@synthetic.com" ile değiştirir. Yapı bozulmaz. Varlık konumlanması, birlikte oluş kalıpları, cümle akışı — hepsi korunur. Model gerçekçi bağlamdan öğrenir.
ML eğitim kümeleri için Replace doğru seçimdir. Model sahte değerleri öğrenmez. Onların etrafındaki kalıpları öğrenir. Önemli olan da budur.
Schrems II ve Sınır Ötesi Aktarımlar
Schrems II kararı (ABAD, 2020), AB-ABD Gizlilik Kalkanı'nı geçersiz kıldı. AB kökenli kayıtlar, uygun aktarım güvenceleri olmadan ABD ML altyapısına — AWS US-East, GCP US-Central — aktarılamaz.
Üç temel güvence şunlardır:
- Aktarım Etki Değerlendirmesi ile Standart Sözleşme Maddeleri
- Şirket grubu içi aktarımlar için Bağlayıcı Şirket Kuralları
- Anonimleştirilmiş kayıtlar için muafiyet — gereği gibi anonimleştirilmiş dosyalar artık GDPR kapsamında kişisel veri değildir ve aktarım kurallarının dışındadır
AB kökenli kümelerle ABD altyapısı kullanan ekipler için düzgün anonimleştirme, Schrems II sorununu ortadan kaldırır. Temiz veri kümesi kişisel değildir. Serbestçe aktarılabilir.
Bu, toplu anonimleştirmenin en güçlü pratik avantajlarından biridir. GDPR'ı karşılamanın ötesine geçer. Sınır ötesi sürtüşmeyi tamamen kaldırır.
Aktarım kısıtlamaları hakkında daha fazlası için GDPR amaç sınırlılığı kılavuzuna bakın.
VKS'ye Ne Vermeli
Temiz bir eğitim kümesini VKS onayına sunarken şu beş öğeyi ekleyin:
- Kaynak açıklaması. Özgün veri kümesi neydi? Toplama amacı neydi? Hangi kişisel kategorileri içeriyordu?
- Anonimleştirme yapılandırması. Hangi varlık türleri tespit edilip değiştirildi? Hangi yöntem uygulandı?
- İşleme meta verileri. Kayıt başına varlık sayıları, güven skorları, işlenen toplam kayıt sayısı.
- Kalıntı risk değerlendirmesi. Herhangi bir kişinin yeniden tanımlanma olasılığı nedir? Yapılandırılmış metinde 285'ten fazla varlık türüyle Replace yöntemi anonimleştirmesi için bu olasılık çok düşüktür.
- Planlanan kullanım. Hangi model eğitilecek? Eğitimin amacı nedir?
Toplu işleme, 2. ve 3. öğeleri otomatik olarak sağlar. 1., 4. ve 5. öğeler veri bilimciden gelir.
İşleme meta verilerinin her iş ile birlikte nasıl döndürüldüğünü görmek için anonym.legal toplu API'sine bakın.
Elde Ettikleriniz
GDPR uyumlu ML kümeleri, özel betikler olmadan, günler süren gecikmeler olmadan ve model kalitesi kaybetmeden elde edilebilir.
Replace yöntemi, NLP eğitimi için önemli olan doğal dil özelliklerini korur. GDPR riski yaratan kişisel ayrıntıları kaldırır.
45 dakikalık toplu işleme, gecikmiş uyum incelemesi ile doğrudan VKS onayı arasındaki farktır.