By · Last updated 2026-06-04

Bloga DönTeknik

Yeniden Üretilebilir Gizlilik: ML Ön Ayarları

ML eğitim verisi anonimleştirmesi tutarlı ve yeniden üretilebilir olmalıdır. A ve B veri bilimcileri farklı varlık türleri uygularsa eğitim veri kümeleri tutarsız hale gelir.

June 4, 20266 dk okuma
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Yeniden Üretilebilir Gizlilik: ML Ekiplerinin Neden Belgeler Değil Ön Ayarlara İhtiyacı Var

VKO anonimleştirme planını onayladı. Dört öğeyi kapsamaktadır: isimler, e-postalar, telefon numaraları ve doğum tarihleri. Yöntem Değiştir'dir. Plan dört sayfadır ve uyumluluk wikisinde yaşar.

On iki veri bilimcisi bunu başlangıç toplantısında okudu. Her biri aracı kendi başına kurdu. Kimileri ulusal kimlikler ekledi. Kimileri IP adresleri ekledi. Kimileri Sil'e geçti. Üç ay sonra veri kümeleri tutarlı değil.

CNIL 2024'te çeşitli yapay zeka firmalarını inceledi. Sorun: modellerin eğitiminde kişisel ayrıntıların uygunsuz kullanımı. Yalnızca anonimleştirmenin gerçekleşip gerçekleşmediğini sormadılar. Ne kadar tutarlı uygulandığını sordular.

Belgeler gereklidir. Yeterli değildir. Düzeltme ön ayardır.

ML Model Veri Kümelerinin Neden Kendi Yapılandırmasına İhtiyacı Var

Model veri kümeleri oluşturmanın kendine özgü gereksinimleri vardır. Genel belge anonimleştirmesi bunları paylaşmaz.

Sil değil, Değiştir. İsimlerin [SİLİNDİ] haline geldiği metinler üzerinde eğitilen modeller, bu belirteci isim konumu işaretçisi olarak öğrenir. Bu modele zarar verir. Değiştir, "Ahmet Yılmaz"ı "Mehmet Kaya" ile değiştirir. Model gerçek isim kalıplarını görür. Maske belirtecini değil.

Tüm kayıtlar için aynı süreç. İsimlerin %70'inin değiştirildiği ve %30'unun [SİLİNDİ] olduğu bir veri kümesi karışık sinyal gönderir. Her kayıt aynı adımlardan geçmelidir.

Aynı varlık listesi. Veri kümesi sağlık ayrıntıları içeriyorsa bazı kayıtlarda isimleri kaldırıp doğum tarihlerini bırakmak boşluklar oluşturur. On iki veri bilimcisinin tamamı aynı türleri kaldırmalıdır.

Aşırı kaldırma yok. Doğum tarihi değil zaman damgası olan tarihleri kaldırmak, uyumluluk kazanımı olmadan veri kümesi kalitesini düşürür. Onaylanmış ön ayar tam olarak hangi öğelerin kaldırılacağını belirtir.

Yeniden üretilebilir çıktı. Bir veri kümesinin yeniden çalıştırılması gerekiyorsa — mesela, gözden kaçan bir varlık türü bulunduktan sonra — ön ayar her seferinde aynı sonucu verir. Geçici yapılandırmalar vermez.

On İki Veri Bilimcisi Sorunu

Avrupada bir fintech ML ekibi, müşteri günlüklerinden veri kümeleri kullanmaktadır. VKO amacı onayladı — dolandırıcılık tespiti — tek bir kuralla: tüm müşteri isimleri, e-postalar, telefon numaraları ve ödeme kimlikleri model çalışması başlamadan önce değiştirilmelidir.

Ön ayarlar olmadan:

  • Kişi 1 isimleri, e-postaları ve telefon numaralarını kaldırır — ancak ödeme kimliklerini gözden kaçırır
  • Kişi 2 ödeme kimliklerini içerir ancak Değiştir yerine Sil kullanır
  • Kişi 3 plan belgesini tam olarak takip eder
  • Kişi 4–12 farklılık gösterir

Birleştirilmiş veri kümesi kısmen uyumsuzdur ve kısmen aşırı işlenmiştir. VKO onu onaylayamaz.

VKO tarafından onaylanan ön ayarla:

  • VKO tam varlık türleri ve Değiştir yöntemiyle "ML Geliştirme — Dolandırıcılık Tespiti" oluşturur
  • Ön ayar tek bir kuralla on iki kişiye gönderilir: tüm veri kümesi çalışmaları için bunu kullanın
  • VKO onayı olmadan kimse ön ayarı değiştiremez

Artık herkes aynı çıktıyı üretir. Birleştirilmiş veri kümesi tutarlıdır. Yıllık yapay zeka denetimi sıfır bulguyla geçer. Önceki yılda tutarsız veri kümesi çalışmasından kaynaklanan üç bulgu vardı.

GDPR ve Yapay Zeka Yasası

2026 için güncellendi

AB Yapay Zeka Yasası Ağustos 2024'te tam olarak yürürlüğe girdi. Model çalışmaları için kişisel ayrıntılar kullanan yapay zeka sistemlerine kurallar ekler. Yüksek riskli yapay zeka sistemleri, uygulanan anonimleştirme dahil olmak üzere veri kümelerini belgelemek zorundadır.

GDPR Madde 5(1)(b) — amaç sınırlama kuralı — açık yasal dayanak olmadan kişisel ayrıntıların kullanımını engeller. CNIL'in 2024 vakaları bu boşluğa odaklanmıştır: bir hizmet için toplanan ayrıntılar, geçerli bir dayanak veya anonimleştirme olmaksızın model çalışması için kullanılmıştır.

Ön ayarlar her iki kural kümesini de karşılamaya yardımcı olur:

  • Ön ayar adı ve yapılandırması: belgelenmiş yöntem
  • İşleme kayıtları: yöntemin uygulandığının kanıtı
  • VKO onayı: yapılandırma üzerinde kayıtlı onay

Bu, her iki yasanın da gerektirdiği denetim izini oluşturur. Madde 10 yükümlülükleri için bkz. AB Yapay Zeka Yasası eğitim verisi kılavuzu.

NLP Model Veri Kümeleri için Ön Ayar Yapılandırması

Çoğu NLP model veri kümesine dahil edilecek türler:

  • KİŞİ — Benzer isimlerle değiştir
  • E_POSTA_ADRESİ — Sentetik adreslerle değiştir
  • TELEFON_NUMARASI — Sentetik numaralarla değiştir
  • KREDİ_KARTI / IBAN — Değiştir veya Sil
  • KONUM — Konum önemliyse benzer yerlerle değiştir; değilse Sil
  • DOĞUM_TARİHİ — Sil; yaş gruplandırması genellikle gereklidir

Sıklıkla hariç tutulan türler:

  • Genel tarihler — zaman damgaları zamansal modellere yardımcı olur
  • Kuruluş isimleri — adlandırılmış varlık modellerine yardımcı olur
  • URL'ler — bağlantı ve referans modellerine yardımcı olur

ML sorumlusu ve VKO bu kuralları onaylanmış ön ayarda belirler. Ekip üyeleri uygular. Yapılandırma seçimleri yapmazlar.

Kurumsal Hafıza Olarak Ön Ayarlar

Ön ayarlardan önce. Doğru varlık yapılandırması, uyumluluk incelemesinden geçmiş üç veri bilimcisinin zihninde yaşıyordu. İkisi Q3'te ayrıldı. Bilgi de onlarla gitti.

Ön ayarlardan sonra. Yapılandırma "ML Geliştirme — Müşteri Kayıtları v2.1"de yaşar. Sürüm günlüğü ne zaman oluşturulduğunu, kimin onayladığını ve v2.0'dan neyin değiştiğini gösterir. Yeni ekip üyeleri ön ayarı kullanır ve içine yerleştirilmiş tüm bilgilere erişir.

Sürüm 2.1, bir incelemenin eksik olduğunu ortaya çıkarmasının ardından IBAN tespitini ekledi. Sürüm 2.0 Şubat 2025'te onaylandı. Günlük tamamdır.

İşleme kayıtları ve VKO inceleme akışlarının nasıl çalıştığına dair bilgi için bkz. GDPR ML eğitim anonimleştirme kılavuzu.

Ön Ayarlar ve CNIL Kalıbı

CNIL'in 2024 yapay zeka vakaları net bir kalıp oluşturdu. Sadece neyin kaldırıldığını değil, nasıl yönetildiğini sorarlar. VKO onay kaydı ve işleme günlükleriyle birlikte paylaşılan bir ön ayar bunu doğrudan yanıtlar.

Geçici bir yapılandırma yanıtlamaz. CNIL mantığını takip eden diğer AB VKK vakalarında da aynı boşluk mevcuttur. CNIL yapay zeka yaklaşımı hakkında daha fazlası için bkz. CNIL Fransa GDPR yapay zeka uyumluluk kılavuzu.

Sonuç

Belgeler ekip üyelerine ne yapacaklarını söyler. Ön ayarlar, her seferinde aynı şekilde yapılmasını kolay — ve uygulanabilir — kılar.

ML model veri kümeleri için tutarlılık hem yasal hem de teknik bir gerekliliktir. Ön ayar her ikisini aynı anda karşılar.

Yapay zeka uygulamalarına bakan VKK'lar, tekdüze anonimleştirmenin kanıtını ister. Tüm veri kümesi çalışmalarında aynı şekilde uygulanan bir ön ayar, verebileceğiniz en net kanıttır.

Kaynaklar

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.