Tek Bir Betik Yeterli Değil

Her veri bilimi ekibi şuna benzer bir şey yazmıştır:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Bu kod e-posta adreslerini değiştirir. Yalnızca bunu yapar. Veri kümesi hâlâ isimler, telefon numaraları ve tıbbi kimlik numaraları barındırır. GDPR denetiminde başarısız olur.

"E-postaları anonimleştirdim" ile "bu veri kümesi GDPR'a uygun" arasındaki uçurum büyüktür. Ekipler bunu sürekli küçümsemektedir.

Temel kural GDPR Madde 5(1)(b)'dir. Amaç sınırlılığı ilkesi olarak bilinir. Kişisel kayıtlar yalnızca toplandıkları amaçla kullanılabilir.

Müşteri siparişleri, sipariş karşılamak için toplandı. Bir öneri modeli eğitmek için değil. Sağlık kayıtları tedavi amacıyla toplandı. Yeniden yatış tahmin modeli eğitmek için değil. Anket yanıtları ürün geri bildirimi için toplandı. Duygu sınıflandırıcısı eğitmek için değil.

Bu kayıtları ML eğitiminde kullanabilmek için ekibin üç şeyden birine ihtiyacı vardır:

Her kişiden ML amacı için açık rıza — elde edilmesi güç, geriye dönük olarak çoğu zaman imkânsız
ML kullanımının uyumlu olduğunu gösteren meşru menfaat değerlendirmesi — hukuken belirsiz, DPA'ya bağımlı
Anonimleştirme — kişisel ayrıntıları değiştirerek veya kaldırarak veri kümesini GDPR kapsamından çıkarma

Düzgün anonimleştirme en yüksek hukuki güvenceyi sağlar. Zorluk ise bunu her seferinde doğru yapmaktır.

Tek Seferlik Betiklerin Sorunu

Her veri kümesi için yeni bir Python betiği yazan ekipler, katlanarak büyüyen sorunlar yaratır.

Eksik kapsam. Tek bir şema için yazılan betik yeni alanları atlar. Altı ay önce eklenen klinik notlar sütunu? Regex'te yok. İkinci ad alanı? Betik yalnızca ad ve soyad kalıplarını işliyor.

Tutarsızlık. A veri kümesi betik_v1 ile işlendi. B veri kümesi betik_v3 kullandı. C veri kümesini farklı bir ekip üyesi işledi. Birleştirilen eğitim kümesine üç farklı yöntem uygulandı. Bir VKS bunu onaylayamaz.

Denetim izi yok. Betik çalıştı. Ne değiştirdi? Hangi varlıklar bulundu? İşleme kayıtları olmadan uyum mümkün değildir. Bir DPA denetçisi "Bu eğitim kümesinin temiz olduğunu nereden biliyorsunuz?" diye sorduğunda, "Python betiği çalıştırdık" yanıtı yeterli değildir.

Model sürüklemesi. 2023'te çalışan regex kalıpları, 2024'ün yeni tanımlayıcı biçimlerini kaçırır. Betikler kendiliğinden güncellenmez.

Toplu İşleme Adım Adım

Bir sağlık yapay zekâsı ekibinin 8.000 hasta kaydını anonimleştirmesi gerekiyor. ABD ekibinin AB ofisinden erişime ihtiyacı var. Schrems II uygulanır — AB kökenli kayıtlar uygun güvenceler olmadan ABD altyapısına aktarılamaz.

Geleneksel yol: Bir veri mühendisi özel bir betik yazar. İki ila üç günlük geliştirme. Bir ila iki günlük VKS incelemesi. Bir günlük iterasyon. Toplam: dört ila altı gün. ML projesi gecikir.

Toplu işleme yolu:

8.000 kaydı CSV olarak dışa aktarın
Toplu işlemeye yükleyin
Varlık türlerini ayarlayın: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
Yöntemi seçin: Replace (yapıyı korumak için gerçekçi sentetik değerler kullanır)
İşleyin: 8.000 kayıt için 45 dakika
Temiz CSV'yi indirin
VKS, işleme meta verilerini inceler — kayıt başına bulunan varlıklar, uygulanan yöntemler: 2 saat
VKS onaylar. Aktarım gerçekleşir.

Toplam süre: 45 dakika artı 2 saatlik VKS incelemesi. Dört ila altı gün yerine.

Aynı adımların Madde 10 yükümlülüklerini nasıl karşıladığını görmek için AB Yapay Zekâ Yasası eğitim kılavuzuna bakın.

ML Kullanımı için Replace mi, Redact mi?

Anonimleştirme yöntemi model kalitesini etkiler.

Redact, kişisel veriyi [REDACTED] gibi bir token ile değiştirir. Kişisel veri tespit modelleri için işe yarar. Duygu analizi, sınıflandırma, öneri gibi diğer görevler için zararlıdır. Model, [REDACTED]'ın özel bir token olduğunu öğrenir. Ad ve değerlerin doğal dağılımından öğrenemez.

Replace, "John Smith"i "David Chen" ile değiştirir. "jsmith@company.com"u "dchen@synthetic.com" ile değiştirir. Yapı bozulmaz. Varlık konumlanması, birlikte oluş kalıpları, cümle akışı — hepsi korunur. Model gerçekçi bağlamdan öğrenir.

ML eğitim kümeleri için Replace doğru seçimdir. Model sahte değerleri öğrenmez. Onların etrafındaki kalıpları öğrenir. Önemli olan da budur.

Schrems II ve Sınır Ötesi Aktarımlar

Schrems II kararı (ABAD, 2020), AB-ABD Gizlilik Kalkanı'nı geçersiz kıldı. AB kökenli kayıtlar, uygun aktarım güvenceleri olmadan ABD ML altyapısına — AWS US-East, GCP US-Central — aktarılamaz.

Üç temel güvence şunlardır:

Aktarım Etki Değerlendirmesi ile Standart Sözleşme Maddeleri
Şirket grubu içi aktarımlar için Bağlayıcı Şirket Kuralları
Anonimleştirilmiş kayıtlar için muafiyet — gereği gibi anonimleştirilmiş dosyalar artık GDPR kapsamında kişisel veri değildir ve aktarım kurallarının dışındadır

AB kökenli kümelerle ABD altyapısı kullanan ekipler için düzgün anonimleştirme, Schrems II sorununu ortadan kaldırır. Temiz veri kümesi kişisel değildir. Serbestçe aktarılabilir.

Bu, toplu anonimleştirmenin en güçlü pratik avantajlarından biridir. GDPR'ı karşılamanın ötesine geçer. Sınır ötesi sürtüşmeyi tamamen kaldırır.

Aktarım kısıtlamaları hakkında daha fazlası için GDPR amaç sınırlılığı kılavuzuna bakın.

VKS'ye Ne Vermeli

Temiz bir eğitim kümesini VKS onayına sunarken şu beş öğeyi ekleyin:

Kaynak açıklaması. Özgün veri kümesi neydi? Toplama amacı neydi? Hangi kişisel kategorileri içeriyordu?
Anonimleştirme yapılandırması. Hangi varlık türleri tespit edilip değiştirildi? Hangi yöntem uygulandı?
İşleme meta verileri. Kayıt başına varlık sayıları, güven skorları, işlenen toplam kayıt sayısı.
Kalıntı risk değerlendirmesi. Herhangi bir kişinin yeniden tanımlanma olasılığı nedir? Yapılandırılmış metinde 285'ten fazla varlık türüyle Replace yöntemi anonimleştirmesi için bu olasılık çok düşüktür.
Planlanan kullanım. Hangi model eğitilecek? Eğitimin amacı nedir?

Toplu işleme, 2. ve 3. öğeleri otomatik olarak sağlar. 1., 4. ve 5. öğeler veri bilimciden gelir.

İşleme meta verilerinin her iş ile birlikte nasıl döndürüldüğünü görmek için anonym.legal toplu API'sine bakın.

Elde Ettikleriniz

GDPR uyumlu ML kümeleri, özel betikler olmadan, günler süren gecikmeler olmadan ve model kalitesi kaybetmeden elde edilebilir.

Replace yöntemi, NLP eğitimi için önemli olan doğal dil özelliklerini korur. GDPR riski yaratan kişisel ayrıntıları kaldırır.

45 dakikalık toplu işleme, gecikmiş uyum incelemesi ile doğrudan VKS onayı arasındaki farktır.

Kaynaklar

İlgili Makaleler

Teknik

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

Ücretsiz Deneme Başlat Özellikleri Görüntüle

GDPR Uyumlu ML Eğitim Verisi Anonimleştirme

Tek Bir Betik Yeterli Değil

Tek Seferlik Betiklerin Sorunu

Toplu İşleme Adım Adım

ML Kullanımı için Replace mi, Redact mi?

Schrems II ve Sınır Ötesi Aktarımlar

VKS'ye Ne Vermeli

Elde Ettikleriniz

Kaynaklar

İlgili Makaleler

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Verilerinizi korumaya hazır mısınız?

GDPR Uyumlu ML Eğitim Verisi Anonimleştirme

Tek Bir Betik Yeterli Değil

GDPR Neden ML Eğitim Kullanımını Kısıtlar

Tek Seferlik Betiklerin Sorunu

Toplu İşleme Adım Adım

ML Kullanımı için Replace mi, Redact mi?

Schrems II ve Sınır Ötesi Aktarımlar

VKS'ye Ne Vermeli

Elde Ettikleriniz

Kaynaklar

İlgili Makaleler

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Verilerinizi korumaya hazır mısınız?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow