By · Last updated 2026-05-27

Bloga DönTeknik

GDPR Uyumlu ML Eğitim Verisi Anonimleştirme

GDPR, kişisel verilerin toplanma amacı dışında ML model eğitiminde kullanılmasını kısıtlar. Geçici Python betiklerine dayanan veri bilimi ekipleri ciddi uyum riskleriyle karşı karşıyadır.

May 27, 20267 dk okuma
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Tek Bir Betik Yeterli Değil

Her veri bilimi ekibi şuna benzer bir şey yazmıştır:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Bu kod e-posta adreslerini değiştirir. Yalnızca bunu yapar. Veri kümesi hâlâ isimler, telefon numaraları ve tıbbi kimlik numaraları barındırır. GDPR denetiminde başarısız olur.

"E-postaları anonimleştirdim" ile "bu veri kümesi GDPR'a uygun" arasındaki uçurum büyüktür. Ekipler bunu sürekli küçümsemektedir.

GDPR Neden ML Eğitim Kullanımını Kısıtlar

Temel kural GDPR Madde 5(1)(b)'dir. Amaç sınırlılığı ilkesi olarak bilinir. Kişisel kayıtlar yalnızca toplandıkları amaçla kullanılabilir.

Müşteri siparişleri, sipariş karşılamak için toplandı. Bir öneri modeli eğitmek için değil. Sağlık kayıtları tedavi amacıyla toplandı. Yeniden yatış tahmin modeli eğitmek için değil. Anket yanıtları ürün geri bildirimi için toplandı. Duygu sınıflandırıcısı eğitmek için değil.

Bu kayıtları ML eğitiminde kullanabilmek için ekibin üç şeyden birine ihtiyacı vardır:

  1. Her kişiden ML amacı için açık rıza — elde edilmesi güç, geriye dönük olarak çoğu zaman imkânsız
  2. ML kullanımının uyumlu olduğunu gösteren meşru menfaat değerlendirmesi — hukuken belirsiz, DPA'ya bağımlı
  3. Anonimleştirme — kişisel ayrıntıları değiştirerek veya kaldırarak veri kümesini GDPR kapsamından çıkarma

Düzgün anonimleştirme en yüksek hukuki güvenceyi sağlar. Zorluk ise bunu her seferinde doğru yapmaktır.

Tek Seferlik Betiklerin Sorunu

Her veri kümesi için yeni bir Python betiği yazan ekipler, katlanarak büyüyen sorunlar yaratır.

Eksik kapsam. Tek bir şema için yazılan betik yeni alanları atlar. Altı ay önce eklenen klinik notlar sütunu? Regex'te yok. İkinci ad alanı? Betik yalnızca ad ve soyad kalıplarını işliyor.

Tutarsızlık. A veri kümesi betik_v1 ile işlendi. B veri kümesi betik_v3 kullandı. C veri kümesini farklı bir ekip üyesi işledi. Birleştirilen eğitim kümesine üç farklı yöntem uygulandı. Bir VKS bunu onaylayamaz.

Denetim izi yok. Betik çalıştı. Ne değiştirdi? Hangi varlıklar bulundu? İşleme kayıtları olmadan uyum mümkün değildir. Bir DPA denetçisi "Bu eğitim kümesinin temiz olduğunu nereden biliyorsunuz?" diye sorduğunda, "Python betiği çalıştırdık" yanıtı yeterli değildir.

Model sürüklemesi. 2023'te çalışan regex kalıpları, 2024'ün yeni tanımlayıcı biçimlerini kaçırır. Betikler kendiliğinden güncellenmez.

Toplu İşleme Adım Adım

Bir sağlık yapay zekâsı ekibinin 8.000 hasta kaydını anonimleştirmesi gerekiyor. ABD ekibinin AB ofisinden erişime ihtiyacı var. Schrems II uygulanır — AB kökenli kayıtlar uygun güvenceler olmadan ABD altyapısına aktarılamaz.

Geleneksel yol: Bir veri mühendisi özel bir betik yazar. İki ila üç günlük geliştirme. Bir ila iki günlük VKS incelemesi. Bir günlük iterasyon. Toplam: dört ila altı gün. ML projesi gecikir.

Toplu işleme yolu:

  1. 8.000 kaydı CSV olarak dışa aktarın
  2. Toplu işlemeye yükleyin
  3. Varlık türlerini ayarlayın: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Yöntemi seçin: Replace (yapıyı korumak için gerçekçi sentetik değerler kullanır)
  5. İşleyin: 8.000 kayıt için 45 dakika
  6. Temiz CSV'yi indirin
  7. VKS, işleme meta verilerini inceler — kayıt başına bulunan varlıklar, uygulanan yöntemler: 2 saat
  8. VKS onaylar. Aktarım gerçekleşir.

Toplam süre: 45 dakika artı 2 saatlik VKS incelemesi. Dört ila altı gün yerine.

Aynı adımların Madde 10 yükümlülüklerini nasıl karşıladığını görmek için AB Yapay Zekâ Yasası eğitim kılavuzuna bakın.

ML Kullanımı için Replace mi, Redact mi?

Anonimleştirme yöntemi model kalitesini etkiler.

Redact, kişisel veriyi [REDACTED] gibi bir token ile değiştirir. Kişisel veri tespit modelleri için işe yarar. Duygu analizi, sınıflandırma, öneri gibi diğer görevler için zararlıdır. Model, [REDACTED]'ın özel bir token olduğunu öğrenir. Ad ve değerlerin doğal dağılımından öğrenemez.

Replace, "John Smith"i "David Chen" ile değiştirir. "jsmith@company.com"u "dchen@synthetic.com" ile değiştirir. Yapı bozulmaz. Varlık konumlanması, birlikte oluş kalıpları, cümle akışı — hepsi korunur. Model gerçekçi bağlamdan öğrenir.

ML eğitim kümeleri için Replace doğru seçimdir. Model sahte değerleri öğrenmez. Onların etrafındaki kalıpları öğrenir. Önemli olan da budur.

Schrems II ve Sınır Ötesi Aktarımlar

Schrems II kararı (ABAD, 2020), AB-ABD Gizlilik Kalkanı'nı geçersiz kıldı. AB kökenli kayıtlar, uygun aktarım güvenceleri olmadan ABD ML altyapısına — AWS US-East, GCP US-Central — aktarılamaz.

Üç temel güvence şunlardır:

  • Aktarım Etki Değerlendirmesi ile Standart Sözleşme Maddeleri
  • Şirket grubu içi aktarımlar için Bağlayıcı Şirket Kuralları
  • Anonimleştirilmiş kayıtlar için muafiyet — gereği gibi anonimleştirilmiş dosyalar artık GDPR kapsamında kişisel veri değildir ve aktarım kurallarının dışındadır

AB kökenli kümelerle ABD altyapısı kullanan ekipler için düzgün anonimleştirme, Schrems II sorununu ortadan kaldırır. Temiz veri kümesi kişisel değildir. Serbestçe aktarılabilir.

Bu, toplu anonimleştirmenin en güçlü pratik avantajlarından biridir. GDPR'ı karşılamanın ötesine geçer. Sınır ötesi sürtüşmeyi tamamen kaldırır.

Aktarım kısıtlamaları hakkında daha fazlası için GDPR amaç sınırlılığı kılavuzuna bakın.

VKS'ye Ne Vermeli

Temiz bir eğitim kümesini VKS onayına sunarken şu beş öğeyi ekleyin:

  1. Kaynak açıklaması. Özgün veri kümesi neydi? Toplama amacı neydi? Hangi kişisel kategorileri içeriyordu?
  2. Anonimleştirme yapılandırması. Hangi varlık türleri tespit edilip değiştirildi? Hangi yöntem uygulandı?
  3. İşleme meta verileri. Kayıt başına varlık sayıları, güven skorları, işlenen toplam kayıt sayısı.
  4. Kalıntı risk değerlendirmesi. Herhangi bir kişinin yeniden tanımlanma olasılığı nedir? Yapılandırılmış metinde 285'ten fazla varlık türüyle Replace yöntemi anonimleştirmesi için bu olasılık çok düşüktür.
  5. Planlanan kullanım. Hangi model eğitilecek? Eğitimin amacı nedir?

Toplu işleme, 2. ve 3. öğeleri otomatik olarak sağlar. 1., 4. ve 5. öğeler veri bilimciden gelir.

İşleme meta verilerinin her iş ile birlikte nasıl döndürüldüğünü görmek için anonym.legal toplu API'sine bakın.

Elde Ettikleriniz

GDPR uyumlu ML kümeleri, özel betikler olmadan, günler süren gecikmeler olmadan ve model kalitesi kaybetmeden elde edilebilir.

Replace yöntemi, NLP eğitimi için önemli olan doğal dil özelliklerini korur. GDPR riski yaratan kişisel ayrıntıları kaldırır.

45 dakikalık toplu işleme, gecikmiş uyum incelemesi ile doğrudan VKS onayı arasındaki farktır.

Kaynaklar

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.