GDPR ve Eski Taranmış Dosyalar: KKB için OCR
2026 için güncellendi
GDPR denetimleri genellikle aynı gizli riski ortaya çıkarır: eski görüntü tabanlı PDF arşivleri.
Hukuk büroları, 20 yıllık taranmış müvekkil dosyalarını saklar. Hastaneler on yıllık hasta formlarını muhafaza eder. Devlet kurumları taranmış kayıtları depolar. Bankalar görüntülenmiş kredi dosyalarına sahiptir.
Bu arşivlerin ortak bir özelliği var. Dosyalar raster görüntülerdir — taranmış PDF'ler, TIFF veya JPEG. Metin katmanı yoktur. Standart KKB araçları bunları okuyamaz. Çoğu anonimleştirme aracı için bu dosyalar adeta var olmamaktadır.
Yaygın bir inanış: "Bunlar görüntü dosyaları — GDPR uygulanmaz."
GDPR Madde 17(1) kişilere silme hakkı tanır. Gerekçe 26, anonimleştirmenin kişisel bilgileri kapsam dışına çıkardığını belirtir. Bunların hiçbiri görüntü formatları için bir istisna tanımamaktadır. 15 yıllık bir müvekkil dosyası için silme talebini yerine getiremeyen bir hukuk bürosunun uyum açığı vardır — muafiyeti değil.
GDPR'ı nasıl desteklediğimiz için uyum genel bakışımıza ve güvenlik uygulamalarımıza bakın.
Tespit Hattı Nasıl Çalışır
Süreç üç aşamada yürütülür.
Aşama 1 — OCR
OCR motoru görüntüyü okur ve metni çıkarır. Her kelimenin konumunu kaydeder. Çıktı, koordinatlarla makine tarafından okunabilir metindir. El yazısı, soluk mürekkep veya eski yazı tipleri mevcut olduğunda doğruluk düşer.
Aşama 2 — NLP Varlık Tespiti
Adlandırılmış Varlık Tanıma (NVT), OCR metnini tarar. Kişi adlarını, kuruluşları ve konumları bulur. Desen eşleştirme, TC kimlik numaralarını, telefon numaralarını ve hesap numaralarını ekler. Her eşleşme bir güven puanı alır.
Aşama 3 — Anonimleştirme
Tespit edilen varlıklar metin çıktısında değiştirilir. Orijinal görüntü değiştirilmez. Görüntüyü değiştirmek ayrı bir redaksiyon aracı gerektirir. Anonimleştirilmiş metin silme taleplerini, DSAR yanıtlarını ve uyum kayıtlarını destekler.
Modern OCR motorları, temiz baskılı sayfalarda %98–99 karakter doğruluğuna ulaşır. El yazısı veya bozulmuş taramalar %85–92'ye düşer. Varlık düzeyindeki doğruluk genellikle karakter düzeyindeki doğruluktan daha yüksektir. Birkaç harf yanlış olsa bile bir isim, isim olarak tanımlanabilir.
Pratik sonuç: OCR doğruluğu kaç varlık yakaladığınızı etkiler. Yöntemin çalışıp çalışmadığını belirlemez. %90 doğrulukta bile çoğu isim ve numarayı bulursunuz. Uyum çalışması için kalite seviyeleri yine de gereklidir. Yöntemin kendisi sağlamdır.
Büyük Bir Arşivi İşleme
Büyük eski arşivler dört aşamalı bir iş akışı izler.
Aşama 1 — Envanter: Tüm görüntü tabanlı arşivleri listeleyin. Kaynak sistemi ve tarih aralığını not edin. Yüksek silme riski taşıyan kayıtları önce sıraya alın. Müvekkile yönelik dosyalar dahili olanlardan önce gelir.
Aşama 2 — Toplu işleme: OCR ve KKB tespitini gruplar halinde çalıştırın. Grup başına beş ila on bin dosya yaygın bir boyuttur. İşleme geceleri yürütülür. Çıktı, her dosya için bir KKB raporu ve anonimleştirilmiş metin alıntısıdır.
Aşama 3 — Silme karşılanması: Konu, adını ve dönemi içeren bir talep gönderir. Tokenlarını bulmak için anonimleştirilmiş alıntıları arayın. Dosyaları bulun. Redakte edin. İşlemi kaydedin.
Aşama 4 — Süregelen uyum: Yeni taranmış dosyaları arşivlemeden önce aynı hattan geçirin. KKB raporlarını Madde 30 İşleme Faaliyetleri Kaydı kanıtı olarak saklayın.
Vaka Çalışması: Hukuk Bürosu Arşivi
Bir hukuk bürosu denetimi, 1998–2010 yılları arasında taranmış 80.000 görüntü tabanlı PDF müvekkil sözleşmesi buldu. Standart KKB araçları sıfır tespit gösterdi. Görüntü formatı görünmezdi.
On beş eski müvekkil, önceki 12 ayda silme talebinde bulunmuştu. Büro şunu söyledi: "Kayıtlarınızın silindiğini teyit edemiyoruz." Bu yanıt GDPR Madde 17'yi karşılamamaktadır.
Büronun yaptıkları:
- 80.000 dosyanın tamamında 5.000'lik gruplar halinde OCR ve KKB tespiti çalıştırdı
- İşleme yaklaşık üç hafta sürdü
- Sonuç: dosya başına raporlarla 80.000 anonimleştirilmiş metin alıntısı
- Varlıkları dosya kimliklerine bağlayan aranabilir bir dizin oluşturuldu
İşlemden sonra:
- Bir konu için dosya bulma: ortalama 4 dakika
- İstek başına dosya: ortalama 6–8
- İstek başına redaksiyon süresi: 20–30 dakika
Beklemedeki 15 talebin tamamı 30 gün içinde çözüldü.
Temel nokta: uyum yükümlülüğü işlemden önce mevcuttu. Büronun bunu yerine getirmek için araçları yoktu. OCR tabanlı işleme yeni bir görev yaratmadı. Mevcut bir görevi yerine getirmeyi mümkün kıldı.
OCR Sınırları ve Kalite Seviyeleri
El yazısı, daha düşük OCR doğruluğuna sahiptir. El yazılı içeriği işlemeden önce daha düşük bir güven eşiği belirleyin.
Düşük tarama kalitesi puanları düşürür. OCR çalıştırılmadan önce kontrast artırma ve eğrilik düzeltme yardımcı olur.
Alışılmadık düzenler — çok sütunlu sayfalar, eski hukuki yazı tipleri — de daha düşük puan alabilir.
Uyum çalışması için kalite seviyeleri belirleyin:
- Sayfa doğruluğu %95 üzerinde: otomatik işlemi çalıştırın
- %80–95: otomatik işlemi çalıştırın, ardından işaretlenen varlıklar için insan incelemesi yapın
- %80 altı: manuel incelemeye gönderin
Kademeli bir yaklaşım, denetçilere güvenilirliği nasıl değerlendirdiğiniz konusunda net bir yanıt verir. Çoğu otomatik araç, yüksek güven dosyalarını işler. Manuel bir kuyruk geri kalanlarla ilgilenir. Verim yüksek kalır. Uyum kalitesi de yüksek kalır.
SSS bölümümüz, OCR tabanlı işleme ve denetim izi gereksinimleri hakkında sık sorulan soruları kapsamaktadır.