KKB Uyumluluğunda Çok Formatlı Sorun
2026 için güncellendi
Bir uyumluluk görevlisine veri erişim talebi (KVKK/GDPR DSAR) yanıtları için hangi formatları anonimleştirdiğini sorun. Liste her zaman aynı: Word sözleşmeleri, PDF faturaları, Excel müşteri verileri, CSV dışa aktarmaları ve JSON günlükleri.
Sonra hangi araçları kullandıklarını sorun. Yanıt genellikle üç ile beş arasında değişiyor. Her aracın farklı varlık kapsamı var. Her birinin farklı ayarları var. Her biri farklı bir denetim günlüğü üretiyor.
Buna format parçalanması deniyor. Ve gerçek uyumluluk açıkları yaratıyor.
Parçalanmanın Nedenleri
Hiçbir araç, her üretim formatını aynı kalitede işleyemedi. Her format için özelleşmiş araçlar ortaya çıktı. PDF için bir tane. Elektronik tablolar için bir tane. CSV için bir makro. Her birinin kendi varlık listesi var. Hiçbiri bir denetim izini paylaşmıyor.
Sonuç tahmin edilebilir. DSAR yanıtı birden fazla dosya türüne yayılıyor. Birden fazla araç işliyor. Her araç farklı standartlar kullanıyor. X varlığı PDF'de yakalanıyor ama Excel dosyasında gözden kaçıyor. Veri koruma denetimleri bu tutarsızlığı ortaya çıkarıyor.
Formata Özgü Teknik Güçlükler
Her format kendi tespit sorunlarını yaratır.
PDF'ler iki türde gelir: yerel metin ve görüntü tabanlı taramalar. Taranmış PDF'lerin önce OCR işleminden geçmesi gerekir. OCR hatalar üretir. Yerel PDF'ler çoğunlukla her sözcüğü ayrı bir metin nesnesi olarak depolar. Bu durum sözcük sınırlarında varlık tespitini bozar. Çok sütunlu düzenler, analizin başlayabilmesi için okuma sırası yeniden yapılandırılmasını gerektirir.
Word (DOCX)
DOCX dosyaları metni XML içinde tutar. Ama ayrıca üstbilgiler, altbilgiler, yorumlar, izlenen değişiklikler ve metin kutularında da. Sayfa üstbilgisindeki antetli kâğıt adresi KKB'dir. Çoğu araç bunu atlar. İzlenen değişiklikler silinmiş KKB içerebilir. Bu metin, işlenmiş görünümde görünmezdir ancak dosyada mevcuttur.
Excel (XLSX)
Excel, KKB'yi yüzlerce sütun ve binlerce satırdaki herhangi bir hücrede depolar. "SSN" veya "E-posta" gibi sütun başlıkları, NER modellerinin ham metinden kaçırdığı bağlamı sağlar. Tarihler ve sosyal güvenlik numaraları çoğunlukla sayı olarak depolanır. "Yönetici notları" gibi serbest metin alanları yapılandırılmamış KKB içerir. Sütun tabanlı araçlar bu alanları atlar.
CSV
CSV, Excel'in yapısından yoksundur. "Notlar" sütunlarındaki serbest metin alanları KKB'yi diğer içeriklerle karıştırır. Kodlama sorunları — UTF-8'e karşı Latin-1 — Avrupa isimlerindeki ve adreslerindeki ASCII dışı karakterlerde başarısızlığa yol açar.
JSON
İç içe JSON, KKB'yi derinlere gömer: user.address.street.line1. Diziler yineleme gerektirir. Aynı alan adı farklı nesnelerde farklı veri türlerini tutabilir. İyi tespit için şema farkındalığı ve içerik analizi birlikte gereklidir.
Tutarsızlık Bir Hukuki Risktir
İşte somut bir GDPR DSAR senaryosu.
Bir veri öznesu kendisiyle ilgili tutulan tüm kişisel verileri talep ediyor. Uyumluluk ekibi şu dosyaları buluyor:
- 3 Word belgesi (sözleşmeler, yazışmalar).
- 2 PDF belgesi (faturalar, destek transkriptleri).
- 1 Excel elektronik tablosu (müşteri hesap verileri).
- 1 CSV dışa aktarması (sistem erişim günlükleri).
PDF'ler için Araç A kullanıyorlar. Word için Araç B. XLSX için bir makro. CSV için elle inceleme. Her aracın farklı varlık kapsamı var.
Veri öznesu anonimleştirilmiş paketi alıyor. Excel "yönetici notları" sütunu işlenmemiş. Word antetli kâğıt adresi gözden kaçmış. Her ikisi de veri öznesinin anonimleştirilmesini istediği KKB içeriyor.
GDPR Madde 15 (erişim hakkı) veya Madde 17 (silinme hakkı) kapsamında bu eksik bir DSAR yanıtıdır. Veri öznesu veya bir düzenleyici bu açığı bulursa, tutarsız araç kullanımı belgelenmiş bir katkı faktörüdür.
Tutarlı Bir Standart Lehine Argüman
Güçlü DSAR uyumluluğu yalnızca hangi KKB türlerinin anonimleştirileceğini listelemez. Yanıt setindeki her format için aynı standardı gerektirir.
Bu şu anlama gelir:
- Word, PDF, Excel, CSV ve JSON'da kontrol edilen aynı varlık türleri.
- Tüm dosyalara uygulanan aynı güven eşikleri.
- Kullanılan aynı değiştirme belirteçleri. "John Smith" üç belgede görünüyorsa, bir belirteç tüm belgelerde adın yerini alır.
- Tüm formatları kapsayan tek bir denetim izi.
Tek platform çözümü bunu ön ayarlar aracılığıyla mümkün kılar. Bir "DSAR AB Bireyleri" ön ayarı aynı 32 varlık türünü kontrol eder. PDF sözleşmesinde, Excel kaydında ve CSV günlüğünde çalışır. Aynı motor üçünü de işler.
Ön ayarların toplu işlerde nasıl çalıştığı hakkında daha fazla bilgi için büyük ölçekte GDPR DSAR toplu işleme rehberimize bakın.
Karma Formatlı Setlerin Toplu İşlenmesi
Ölçekte DSAR uyumluluğu, karma formatlı klasörleri bir birim olarak işlemek anlamına gelir.
Girdi: 15 dosyalı bir klasör — PDF'ler, DOCX, XLSX, CSV — bir veri öznesine ait tüm verileri temsil ediyor.
İşleme adımları:
- Her dosyanın formatını tespit edin.
- Doğru ayrıştırıcıyı uygulayın. PDF metin çıkarma. DOCX XML ayrıştırma. XLSX hücre yinelemesi. CSV alan ayrıştırma.
- Aynı NLP ardışık düzenini tüm dosyalardan çıkarılan metin üzerinde çalıştırın.
- Toplu işlemdeki her dosyaya aynı ön ayarı uygulayın.
- Paylaşılan bir belirteç havuzu kullanın. Aynı isim, 15 dosyanın tamamında aynı değiştirme belirtecini alır.
Çıktı:
- Tüm 15 dosyanın orijinal formatlarında anonimleştirilmiş sürümleri.
- Tek bir çapraz formatlı denetim raporu. Tespit edilen her varlığı, kaynak belgesini, güven puanını ve yapılan eylemi gösteriyor.
Bu denetim raporu, uyumluluk belgesidir. 15 dosyanın tamamının aynı standartla işlendiğini kanıtlar. Bir veri koruma otoritesi denetimi için bu, parçalı araç kullanımından çok daha güçlüdür.
İlgili: yapay zeka veri sızıntıları için gerçek zamanlı KKB önleme.
Birleşik Ardışık Düzenlerin Bilinen Sınırları
Format birleştirme, parçalanmayı çözer. Ama kendi kısıtlamalarını da beraberinde getirir.
Dönüşüm doğruluğu: DOCX'i işleme formatına dönüştürmek ve geri almak, değişiklikleri izleme geçmişini kaybedebilir veya gömülü nesneleri bozabilir. Hukuki belgeler işleme sonrasında ek doğrulama gerektirir.
Formata özgü bakım: CSV için varlık tanıyıcılar, taranmış formlar için olanlardan farklıdır. "Birleşik" bir ardışık düzen yine de forma özgü ön işlem gerektirir. Bu ön işlemin formatlar geliştikçe güncellenmesi gerekir.
Alışılmadık formatlarda doğruluk: Çoğu NLP modeli web metni ve yaygın ofis belgelerine göre eğitilir. Eski formatlar — eski EDI dosyaları, özel XML şemaları, CAD meta verileri — çoğunlukla kıyaslamaların önerdiğinden daha düşük doğruluk üretir.
Yeniden oluşturulamayan formatlar: Bazı PDF türleri ve yalnızca görüntü içeren dosyalar yerinde anonimleştirilemez. Görsel redaksiyon gerektirir. Görsel redaksiyon, makine tarafından okunabilir yapıyı yok eder. Anonimleştirme sonrası arama veya dizinleme gerekiyorsa bu yetersiz kalabilir.
Pratik DSAR İş Akışı
Düzenli DSAR hacimlerine sahip uyumluluk ekipleri için:
-
Veri öznesine ait tüm belgeleri toplayın
-
Bir DSAR toplu işlemi oluşturun — formatından bağımsız olarak tüm dosyaları ekleyin
-
"DSAR AB Bireyleri" ön ayarını seçin
-
Toplu işlemi çalıştırın
-
Anonimleştirilmiş çıktıları ve birleştirilmiş denetim raporunu indirin
-
Çıktıdan iki ya da üç belgeyi nokta kontrol edin
-
Anonimleştirilmiş belgeleri veri öznesu yanıtı için hazırlayın
-
Denetim raporunu DSAR dava kaydına ekleyin
-
Adım (elle toplama) hâlâ ana zaman maliyetidir. 2. ile 8. adımlar tipik bir toplu iş için 10 dakikanın altında sürer. 5. adımdaki denetim raporu GDPR hesap verebilirlik ilkesini karşılar.
anonym.legal, DOCX, PDF, XLSX, CSV ve JSON dosyalarını işler. Her dosya aynı ön ayarı kullanır. Bir denetim raporu toplu işlemi kapsar.