By · Last updated 2026-06-05

Bloga DönTeknik

KKB Araçlarında Belge Formatı Parçalanması

Tek bir KVKK veri erişim talebi yanıtı Word sözleşmelerini, PDF faturalarını, Excel müşteri listelerini ve CSV dışa aktarmalarını kapsayabilir. Her format için farklı araç kullanmak ciddi uyumluluk açıkları yaratır.

June 5, 20267 dk okuma
document formatsPDF anonymizationExcel GDPRbatch processingDSAR compliance

KKB Uyumluluğunda Çok Formatlı Sorun

2026 için güncellendi

Bir uyumluluk görevlisine veri erişim talebi (KVKK/GDPR DSAR) yanıtları için hangi formatları anonimleştirdiğini sorun. Liste her zaman aynı: Word sözleşmeleri, PDF faturaları, Excel müşteri verileri, CSV dışa aktarmaları ve JSON günlükleri.

Sonra hangi araçları kullandıklarını sorun. Yanıt genellikle üç ile beş arasında değişiyor. Her aracın farklı varlık kapsamı var. Her birinin farklı ayarları var. Her biri farklı bir denetim günlüğü üretiyor.

Buna format parçalanması deniyor. Ve gerçek uyumluluk açıkları yaratıyor.

Parçalanmanın Nedenleri

Hiçbir araç, her üretim formatını aynı kalitede işleyemedi. Her format için özelleşmiş araçlar ortaya çıktı. PDF için bir tane. Elektronik tablolar için bir tane. CSV için bir makro. Her birinin kendi varlık listesi var. Hiçbiri bir denetim izini paylaşmıyor.

Sonuç tahmin edilebilir. DSAR yanıtı birden fazla dosya türüne yayılıyor. Birden fazla araç işliyor. Her araç farklı standartlar kullanıyor. X varlığı PDF'de yakalanıyor ama Excel dosyasında gözden kaçıyor. Veri koruma denetimleri bu tutarsızlığı ortaya çıkarıyor.

Formata Özgü Teknik Güçlükler

Her format kendi tespit sorunlarını yaratır.

PDF

PDF'ler iki türde gelir: yerel metin ve görüntü tabanlı taramalar. Taranmış PDF'lerin önce OCR işleminden geçmesi gerekir. OCR hatalar üretir. Yerel PDF'ler çoğunlukla her sözcüğü ayrı bir metin nesnesi olarak depolar. Bu durum sözcük sınırlarında varlık tespitini bozar. Çok sütunlu düzenler, analizin başlayabilmesi için okuma sırası yeniden yapılandırılmasını gerektirir.

Word (DOCX)

DOCX dosyaları metni XML içinde tutar. Ama ayrıca üstbilgiler, altbilgiler, yorumlar, izlenen değişiklikler ve metin kutularında da. Sayfa üstbilgisindeki antetli kâğıt adresi KKB'dir. Çoğu araç bunu atlar. İzlenen değişiklikler silinmiş KKB içerebilir. Bu metin, işlenmiş görünümde görünmezdir ancak dosyada mevcuttur.

Excel (XLSX)

Excel, KKB'yi yüzlerce sütun ve binlerce satırdaki herhangi bir hücrede depolar. "SSN" veya "E-posta" gibi sütun başlıkları, NER modellerinin ham metinden kaçırdığı bağlamı sağlar. Tarihler ve sosyal güvenlik numaraları çoğunlukla sayı olarak depolanır. "Yönetici notları" gibi serbest metin alanları yapılandırılmamış KKB içerir. Sütun tabanlı araçlar bu alanları atlar.

CSV

CSV, Excel'in yapısından yoksundur. "Notlar" sütunlarındaki serbest metin alanları KKB'yi diğer içeriklerle karıştırır. Kodlama sorunları — UTF-8'e karşı Latin-1 — Avrupa isimlerindeki ve adreslerindeki ASCII dışı karakterlerde başarısızlığa yol açar.

JSON

İç içe JSON, KKB'yi derinlere gömer: user.address.street.line1. Diziler yineleme gerektirir. Aynı alan adı farklı nesnelerde farklı veri türlerini tutabilir. İyi tespit için şema farkındalığı ve içerik analizi birlikte gereklidir.

Tutarsızlık Bir Hukuki Risktir

İşte somut bir GDPR DSAR senaryosu.

Bir veri öznesu kendisiyle ilgili tutulan tüm kişisel verileri talep ediyor. Uyumluluk ekibi şu dosyaları buluyor:

  • 3 Word belgesi (sözleşmeler, yazışmalar).
  • 2 PDF belgesi (faturalar, destek transkriptleri).
  • 1 Excel elektronik tablosu (müşteri hesap verileri).
  • 1 CSV dışa aktarması (sistem erişim günlükleri).

PDF'ler için Araç A kullanıyorlar. Word için Araç B. XLSX için bir makro. CSV için elle inceleme. Her aracın farklı varlık kapsamı var.

Veri öznesu anonimleştirilmiş paketi alıyor. Excel "yönetici notları" sütunu işlenmemiş. Word antetli kâğıt adresi gözden kaçmış. Her ikisi de veri öznesinin anonimleştirilmesini istediği KKB içeriyor.

GDPR Madde 15 (erişim hakkı) veya Madde 17 (silinme hakkı) kapsamında bu eksik bir DSAR yanıtıdır. Veri öznesu veya bir düzenleyici bu açığı bulursa, tutarsız araç kullanımı belgelenmiş bir katkı faktörüdür.

Tutarlı Bir Standart Lehine Argüman

Güçlü DSAR uyumluluğu yalnızca hangi KKB türlerinin anonimleştirileceğini listelemez. Yanıt setindeki her format için aynı standardı gerektirir.

Bu şu anlama gelir:

  • Word, PDF, Excel, CSV ve JSON'da kontrol edilen aynı varlık türleri.
  • Tüm dosyalara uygulanan aynı güven eşikleri.
  • Kullanılan aynı değiştirme belirteçleri. "John Smith" üç belgede görünüyorsa, bir belirteç tüm belgelerde adın yerini alır.
  • Tüm formatları kapsayan tek bir denetim izi.

Tek platform çözümü bunu ön ayarlar aracılığıyla mümkün kılar. Bir "DSAR AB Bireyleri" ön ayarı aynı 32 varlık türünü kontrol eder. PDF sözleşmesinde, Excel kaydında ve CSV günlüğünde çalışır. Aynı motor üçünü de işler.

Ön ayarların toplu işlerde nasıl çalıştığı hakkında daha fazla bilgi için büyük ölçekte GDPR DSAR toplu işleme rehberimize bakın.

Karma Formatlı Setlerin Toplu İşlenmesi

Ölçekte DSAR uyumluluğu, karma formatlı klasörleri bir birim olarak işlemek anlamına gelir.

Girdi: 15 dosyalı bir klasör — PDF'ler, DOCX, XLSX, CSV — bir veri öznesine ait tüm verileri temsil ediyor.

İşleme adımları:

  • Her dosyanın formatını tespit edin.
  • Doğru ayrıştırıcıyı uygulayın. PDF metin çıkarma. DOCX XML ayrıştırma. XLSX hücre yinelemesi. CSV alan ayrıştırma.
  • Aynı NLP ardışık düzenini tüm dosyalardan çıkarılan metin üzerinde çalıştırın.
  • Toplu işlemdeki her dosyaya aynı ön ayarı uygulayın.
  • Paylaşılan bir belirteç havuzu kullanın. Aynı isim, 15 dosyanın tamamında aynı değiştirme belirtecini alır.

Çıktı:

  • Tüm 15 dosyanın orijinal formatlarında anonimleştirilmiş sürümleri.
  • Tek bir çapraz formatlı denetim raporu. Tespit edilen her varlığı, kaynak belgesini, güven puanını ve yapılan eylemi gösteriyor.

Bu denetim raporu, uyumluluk belgesidir. 15 dosyanın tamamının aynı standartla işlendiğini kanıtlar. Bir veri koruma otoritesi denetimi için bu, parçalı araç kullanımından çok daha güçlüdür.

İlgili: yapay zeka veri sızıntıları için gerçek zamanlı KKB önleme.

Birleşik Ardışık Düzenlerin Bilinen Sınırları

Format birleştirme, parçalanmayı çözer. Ama kendi kısıtlamalarını da beraberinde getirir.

Dönüşüm doğruluğu: DOCX'i işleme formatına dönüştürmek ve geri almak, değişiklikleri izleme geçmişini kaybedebilir veya gömülü nesneleri bozabilir. Hukuki belgeler işleme sonrasında ek doğrulama gerektirir.

Formata özgü bakım: CSV için varlık tanıyıcılar, taranmış formlar için olanlardan farklıdır. "Birleşik" bir ardışık düzen yine de forma özgü ön işlem gerektirir. Bu ön işlemin formatlar geliştikçe güncellenmesi gerekir.

Alışılmadık formatlarda doğruluk: Çoğu NLP modeli web metni ve yaygın ofis belgelerine göre eğitilir. Eski formatlar — eski EDI dosyaları, özel XML şemaları, CAD meta verileri — çoğunlukla kıyaslamaların önerdiğinden daha düşük doğruluk üretir.

Yeniden oluşturulamayan formatlar: Bazı PDF türleri ve yalnızca görüntü içeren dosyalar yerinde anonimleştirilemez. Görsel redaksiyon gerektirir. Görsel redaksiyon, makine tarafından okunabilir yapıyı yok eder. Anonimleştirme sonrası arama veya dizinleme gerekiyorsa bu yetersiz kalabilir.

Pratik DSAR İş Akışı

Düzenli DSAR hacimlerine sahip uyumluluk ekipleri için:

  1. Veri öznesine ait tüm belgeleri toplayın

  2. Bir DSAR toplu işlemi oluşturun — formatından bağımsız olarak tüm dosyaları ekleyin

  3. "DSAR AB Bireyleri" ön ayarını seçin

  4. Toplu işlemi çalıştırın

  5. Anonimleştirilmiş çıktıları ve birleştirilmiş denetim raporunu indirin

  6. Çıktıdan iki ya da üç belgeyi nokta kontrol edin

  7. Anonimleştirilmiş belgeleri veri öznesu yanıtı için hazırlayın

  8. Denetim raporunu DSAR dava kaydına ekleyin

  9. Adım (elle toplama) hâlâ ana zaman maliyetidir. 2. ile 8. adımlar tipik bir toplu iş için 10 dakikanın altında sürer. 5. adımdaki denetim raporu GDPR hesap verebilirlik ilkesini karşılar.


anonym.legal, DOCX, PDF, XLSX, CSV ve JSON dosyalarını işler. Her dosya aynı ön ayarı kullanır. Bir denetim raporu toplu işlemi kapsar.

Kaynaklar

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.