2026 için güncellendi

GDPR denetimleri genellikle aynı gizli riski ortaya çıkarır: eski görüntü tabanlı PDF arşivleri.

Hukuk büroları, 20 yıllık taranmış müvekkil dosyalarını saklar. Hastaneler on yıllık hasta formlarını muhafaza eder. Devlet kurumları taranmış kayıtları depolar. Bankalar görüntülenmiş kredi dosyalarına sahiptir.

Bu arşivlerin ortak bir özelliği var. Dosyalar raster görüntülerdir — taranmış PDF'ler, TIFF veya JPEG. Metin katmanı yoktur. Standart KKB araçları bunları okuyamaz. Çoğu anonimleştirme aracı için bu dosyalar adeta var olmamaktadır.

Yaygın bir inanış: "Bunlar görüntü dosyaları — GDPR uygulanmaz."

GDPR Madde 17(1) kişilere silme hakkı tanır. Gerekçe 26, anonimleştirmenin kişisel bilgileri kapsam dışına çıkardığını belirtir. Bunların hiçbiri görüntü formatları için bir istisna tanımamaktadır. 15 yıllık bir müvekkil dosyası için silme talebini yerine getiremeyen bir hukuk bürosunun uyum açığı vardır — muafiyeti değil.

GDPR'ı nasıl desteklediğimiz için uyum genel bakışımıza ve güvenlik uygulamalarımıza bakın.

Tespit Hattı Nasıl Çalışır

Süreç üç aşamada yürütülür.

Aşama 1 — OCR

OCR motoru görüntüyü okur ve metni çıkarır. Her kelimenin konumunu kaydeder. Çıktı, koordinatlarla makine tarafından okunabilir metindir. El yazısı, soluk mürekkep veya eski yazı tipleri mevcut olduğunda doğruluk düşer.

Aşama 2 — NLP Varlık Tespiti

Adlandırılmış Varlık Tanıma (NVT), OCR metnini tarar. Kişi adlarını, kuruluşları ve konumları bulur. Desen eşleştirme, TC kimlik numaralarını, telefon numaralarını ve hesap numaralarını ekler. Her eşleşme bir güven puanı alır.

Aşama 3 — Anonimleştirme

Tespit edilen varlıklar metin çıktısında değiştirilir. Orijinal görüntü değiştirilmez. Görüntüyü değiştirmek ayrı bir redaksiyon aracı gerektirir. Anonimleştirilmiş metin silme taleplerini, DSAR yanıtlarını ve uyum kayıtlarını destekler.

Modern OCR motorları, temiz baskılı sayfalarda %98–99 karakter doğruluğuna ulaşır. El yazısı veya bozulmuş taramalar %85–92'ye düşer. Varlık düzeyindeki doğruluk genellikle karakter düzeyindeki doğruluktan daha yüksektir. Birkaç harf yanlış olsa bile bir isim, isim olarak tanımlanabilir.

Pratik sonuç: OCR doğruluğu kaç varlık yakaladığınızı etkiler. Yöntemin çalışıp çalışmadığını belirlemez. %90 doğrulukta bile çoğu isim ve numarayı bulursunuz. Uyum çalışması için kalite seviyeleri yine de gereklidir. Yöntemin kendisi sağlamdır.

Büyük Bir Arşivi İşleme

Büyük eski arşivler dört aşamalı bir iş akışı izler.

Aşama 1 — Envanter: Tüm görüntü tabanlı arşivleri listeleyin. Kaynak sistemi ve tarih aralığını not edin. Yüksek silme riski taşıyan kayıtları önce sıraya alın. Müvekkile yönelik dosyalar dahili olanlardan önce gelir.

Aşama 2 — Toplu işleme: OCR ve KKB tespitini gruplar halinde çalıştırın. Grup başına beş ila on bin dosya yaygın bir boyuttur. İşleme geceleri yürütülür. Çıktı, her dosya için bir KKB raporu ve anonimleştirilmiş metin alıntısıdır.

Aşama 3 — Silme karşılanması: Konu, adını ve dönemi içeren bir talep gönderir. Tokenlarını bulmak için anonimleştirilmiş alıntıları arayın. Dosyaları bulun. Redakte edin. İşlemi kaydedin.

Aşama 4 — Süregelen uyum: Yeni taranmış dosyaları arşivlemeden önce aynı hattan geçirin. KKB raporlarını Madde 30 İşleme Faaliyetleri Kaydı kanıtı olarak saklayın.

Vaka Çalışması: Hukuk Bürosu Arşivi

Bir hukuk bürosu denetimi, 1998–2010 yılları arasında taranmış 80.000 görüntü tabanlı PDF müvekkil sözleşmesi buldu. Standart KKB araçları sıfır tespit gösterdi. Görüntü formatı görünmezdi.

On beş eski müvekkil, önceki 12 ayda silme talebinde bulunmuştu. Büro şunu söyledi: "Kayıtlarınızın silindiğini teyit edemiyoruz." Bu yanıt GDPR Madde 17'yi karşılamamaktadır.

Büronun yaptıkları:

80.000 dosyanın tamamında 5.000'lik gruplar halinde OCR ve KKB tespiti çalıştırdı
İşleme yaklaşık üç hafta sürdü
Sonuç: dosya başına raporlarla 80.000 anonimleştirilmiş metin alıntısı
Varlıkları dosya kimliklerine bağlayan aranabilir bir dizin oluşturuldu

İşlemden sonra:

Bir konu için dosya bulma: ortalama 4 dakika
İstek başına dosya: ortalama 6–8
İstek başına redaksiyon süresi: 20–30 dakika

Beklemedeki 15 talebin tamamı 30 gün içinde çözüldü.

Temel nokta: uyum yükümlülüğü işlemden önce mevcuttu. Büronun bunu yerine getirmek için araçları yoktu. OCR tabanlı işleme yeni bir görev yaratmadı. Mevcut bir görevi yerine getirmeyi mümkün kıldı.

OCR Sınırları ve Kalite Seviyeleri

El yazısı, daha düşük OCR doğruluğuna sahiptir. El yazılı içeriği işlemeden önce daha düşük bir güven eşiği belirleyin.

Düşük tarama kalitesi puanları düşürür. OCR çalıştırılmadan önce kontrast artırma ve eğrilik düzeltme yardımcı olur.

Alışılmadık düzenler — çok sütunlu sayfalar, eski hukuki yazı tipleri — de daha düşük puan alabilir.

Uyum çalışması için kalite seviyeleri belirleyin:

Sayfa doğruluğu %95 üzerinde: otomatik işlemi çalıştırın
%80–95: otomatik işlemi çalıştırın, ardından işaretlenen varlıklar için insan incelemesi yapın
%80 altı: manuel incelemeye gönderin

Kademeli bir yaklaşım, denetçilere güvenilirliği nasıl değerlendirdiğiniz konusunda net bir yanıt verir. Çoğu otomatik araç, yüksek güven dosyalarını işler. Manuel bir kuyruk geri kalanlarla ilgilenir. Verim yüksek kalır. Uyum kalitesi de yüksek kalır.

SSS bölümümüz, OCR tabanlı işleme ve denetim izi gereksinimleri hakkında sık sorulan soruları kapsamaktadır.

Kaynaklar

İlgili Makaleler

GDPR & Uyumluluk

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

Ücretsiz Deneme Başlat Özellikleri Görüntüle

GDPR ve Eski Taranmış Belgeler: OCR + KKB

Tespit Hattı Nasıl Çalışır

Büyük Bir Arşivi İşleme

Vaka Çalışması: Hukuk Bürosu Arşivi

OCR Sınırları ve Kalite Seviyeleri

Kaynaklar

İlgili Makaleler

Kendi Barındırmalı KVVi Araçları Uyumluluk Denetimlerini Geçemiyor

Presidio 220'den Fazla GDPR Varlığını Kaçırıyor

Yapılandırma Kayması: Gizli Bir GDPR Riski

Verilerinizi korumaya hazır mısınız?

GDPR ve Eski Taranmış Belgeler: OCR + KKB

GDPR ve Eski Taranmış Dosyalar: KKB için OCR

Tespit Hattı Nasıl Çalışır

Büyük Bir Arşivi İşleme

Vaka Çalışması: Hukuk Bürosu Arşivi

OCR Sınırları ve Kalite Seviyeleri

Kaynaklar

İlgili Makaleler

Kendi Barındırmalı KVVi Araçları Uyumluluk Denetimlerini Geçemiyor

Presidio 220'den Fazla GDPR Varlığını Kaçırıyor

Yapılandırma Kayması: Gizli Bir GDPR Riski

Verilerinizi korumaya hazır mısınız?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow