By · Last updated 2026-06-05

Bloga DönGDPR & Uyumluluk

CSV Serbest Metin KVV: Sütun Silmenin Ötesinde

Anket CSV'leri yalnızca yapılandırılmış sütunlarda değil, serbest metin yanıtlarında da KVV içerir. Standart sütun silme yöntemi GDPR'ı ihlal eden KVV'yi gözden kaçırır.

June 5, 20267 dk okuma
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Sütun Silmenin Gözden Kaçırdığı Boşluk

2026 için güncellendi

Araştırma veri kümeleri üniversiteler arasında CSV dosyaları olarak dolaşır. Ekipler bir CSV'yi paylaşıma hazırlarken iş sütun bazında yürütülür. Kişisel bilgileri bulun. Silin ya da değiştirin.

Bu yöntem sabit alanlar için işe yarar. "E-posta" adlı bir sütun e-posta adresleri içerir — silin. "Telefon" adlı bir sütun telefon numaraları içerir — silin. "Katılımcı_adı" adlı bir sütun isimler içerir — bir kodla değiştirin.

Ancak serbest metin yanıt sütunları bir kör noktadır. Etiketli sütunları kaldırmak bu sütunlara dokunmaz.

5.000 satırlık bir ankette beş yapılandırılmış KVV sütunu ve on beş açık metin yanıt sütunu bulunabilir. Yapılandırılmış olanlar isim, e-posta, telefon numarası, kimlik ve doğum yılı içerir. Açık metin olanlar ise yorumlar, notlar ve öneriler barındırır.

Yapılandırılmış sütunlar temizlenir. Açık metin sütunları ise ham hâlinde kalır. Oysa insanlar şu üç örneğe benzer şeyler yazar.

Birincisi: "Boston Medical Center'daki doktorum Dr. Maria Santos, tedavinin yeni olduğunu söyledi." İkincisi: "Bununla 2019 kazamdan beri uğraşıyorum." Üçüncüsü: "Bakıcıma margaret.wells@gmail.com adresinden ulaşabilirsiniz."

Her giriş gerçek bir kişiye işaret eder. Bir kısmı sağlık bilgisi ya da iletişim bilgisi içerir. Bunların hiçbiri bir sütun başlığında yer almaz. Hiçbiri sütun silme yöntemiyle yakalanmaz.

Bu Neden GDPR Standardını Karşılamıyor

GDPR Recital 26, anonim kayıtları herhangi bir kişiyle ilişkilendirilemeyen kayıtlar olarak tanımlar. Çıta yüksektir. Kayıtlar yalnızca yeniden tanımlama makul ölçüde mümkün olmadığında gerçek anlamda anonimdir.

Temiz sabit sütunlara sahip ancak açık metinlerinde adlandırılmış kişiler bulunan bir CSV bu testi geçemez. O isimler tanımlanabilir niteliktedir. Veri kümesi hâlâ kişiseldir. GDPR Madde 89 kuralları hâlâ geçerlidir. Bu nedenle üç risk ortaya çıkar.

Madde 89 araştırma muafiyeti: Madde 89, araştırmacıların bilimsel amaçlarla daha az yükümlülükle kişisel bilgileri işlemesine olanak tanır. Ancak yalnızca "uygun güvenceler" mevcut olduğunda. Açık metin KVV içeren bir dosyayı paylaşırken Madde 89 kapsamını ileri sürmek hukuki bir başarısızlıktır.

Etik onay: IRB'lerin ve etik kurulların büyük çoğunluğu, paylaşılan veri kümeleri için tam anonimleştirme gerektirir. Kısmi çalışma — sabit sütunlar temizlenmiş, açık metin ham bırakılmış — genellikle reddedilir. Kurul başvuruyu kabul etmeyebilir.

Veri paylaşım sözleşmeleri: Kurumlar arasındaki VPS'ler gerekli anonimleştirme düzeyini belirler. GDPR Recital 26'yı karşılamayan kısmi çalışma VPS'i ihlal edebilir. Bunun daha geniş bir programla nasıl örtüştüğü için Yasal Uyum genel bakışımıza bakın.

Açık Metni Temizlemek Neden Bu Kadar Zor

Serbest metin anket yanıtları, en zor KVV hedefleri arasındadır. İşte nedeni.

Bağlamdaki isimler: "Boston Medical Center'daki Dr. Maria Santos" ifadesi bir kişiyi ve bir kuruluşu işaretlemek için adlandırılmış varlık tanıma (NER) gerektirir. Anahtar kelime listeleri bunu bulamaz.

Hikayelerdeki isimler: "John Henderson'ın arabası benimkine çarptı" gerçek bir ismi bir hikâyenin içine yerleştirir. Bu, geçerken adı geçen bir kişidir. Yalnızca NER bunu yakalar.

Standart dışı biçimler: İletişim bilgisi "margaret nokta wells at gmail yazın" şeklinde görünebilir. Basit regex araçları bunları gözden kaçırır.

Araştırmaya özgü terimler: Klinik anketler genellikle hastane kimlikleri, alan kodları ve yer adları içerir. Bunlar genel görünseler bile bir kişiyi tanımlayabilir.

Dolayısıyla yalnızca örüntü eşleştirmesi yeterli değildir. Gerçek anket anonimleştirmesi için NLP tabanlı araçlar gereklidir. Teknik seçenekler için Güvenlik ve Uyum sayfasına bakın.

Üç Üniversiteden Gerçek Bir Örnek

Avrupa'daki üç üniversiteden oluşan bir araştırma ekibi bir hasta deneyimi anketi yürüttü. Veri kümesinde 5.000 katılımcı, 3 sabit KVV sütunu ve 8 açık metin sütunu bulunuyordu. Plan; bir VPS ve GDPR Madde 89 kapsamında dosyayı alanlar arasında paylaşmaktı.

Yalnızca sütun silme ile:

  • Sabit KVV sütunları: kaldırıldı
  • Açık metin sütunları: ham bırakıldı
  • İddia: "KVV sütunları silindi"
  • Geride kalan KVV: 47 adlandırılmış kişi, yorumlarda 23 e-posta adresi, katılımcıları tanımlayabilecek 18 yer adı

NLP tabanlı algılama ile:

  • Sabit KVV sütunları: tutarlı simgelerle değiştirildi
  • Açık metin sütunları: 47 isim değiştirildi, 23 e-posta maskelendi, 18 yer adı genel hâle getirildi ("Boston Medical Center" → "[Sağlık Kurumu]")
  • Sonuç: GDPR Recital 26'yı geçen bir dosya
  • Etik kurul yöntemi onayladı
  • VKO, VPS uyumluluğunu teyit etti

Boşluk gerçektir. Birinci çıktı temiz görünür. İkinci çıktı gerçekten temizdir.

Paylaşım Öncesi Beş Adımlı Protokol

Herhangi bir anket veya mülakat dosyasını paylaşmadan önce şu adımları uygulayın.

Adım 1: Her sütunu etiketleyin Her sütunu sabit KVV, sabit KVV dışı veya açık metin olarak işaretleyin. Yazıya dökün.

Adım 2: Sabit KVV'yi işleyin Analiz için gerekli olmayan girişleri silin. Kayıtları bağlamak için gerekli girişleri değiştirin. Kullanılan kodları kaydedin.

Adım 3: Açık metin sütunlarını tarayın Tüm açık metin sütunlarında NLP algılaması çalıştırın. Her sonucu gözden geçirin. Hangilerinin gerçek KVV olduğunu onaylayın.

Adım 4: Değiştirmeleri uygulayın Açık metin çıktısındaki onaylanmış KVV'yi değiştirin. [KİŞİ], [E-POSTA] veya [KONUM] gibi net etiketler kullanın.

Adım 5: Doğrulayın ve belgeleyin Çıktıdan 50–100 satır örnekleyin. Açık metin girişlerini elle kontrol edin. Kısa bir özet yazın: kullanılan araçlar, bulunan varlık türleri, işlenen sütunlar. Etik inceleme için dosyayla birlikte paylaşın.

Bu, "isim sütununu sildik" ifadesini açık ve belgelenmiş bir sürece dönüştürür. GDPR Madde 89'u ve çoğu etik kurulun gerektirdiği anonimleştirme standartlarını karşılar. İlgili kılavuzlar için doküman merkezimizi ziyaret edin.

Kaynaklar

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.