By · Last updated 2026-06-05

Bloga DönGDPR & Uyumluluk

GDPR ve Eski Taranmış Belgeler: OCR + KKB

GDPR'ın silinme hakkı, 'format ne olursa olsun' kişisel verilere uygulanır. Kağıt arşivlerindeki görüntü tabanlı PDF'ler bu kapsamın dışında değildir.

June 5, 20267 dk okuma
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR ve Eski Taranmış Dosyalar: KKB için OCR

2026 için güncellendi

GDPR denetimleri genellikle aynı gizli riski ortaya çıkarır: eski görüntü tabanlı PDF arşivleri.

Hukuk büroları, 20 yıllık taranmış müvekkil dosyalarını saklar. Hastaneler on yıllık hasta formlarını muhafaza eder. Devlet kurumları taranmış kayıtları depolar. Bankalar görüntülenmiş kredi dosyalarına sahiptir.

Bu arşivlerin ortak bir özelliği var. Dosyalar raster görüntülerdir — taranmış PDF'ler, TIFF veya JPEG. Metin katmanı yoktur. Standart KKB araçları bunları okuyamaz. Çoğu anonimleştirme aracı için bu dosyalar adeta var olmamaktadır.

Yaygın bir inanış: "Bunlar görüntü dosyaları — GDPR uygulanmaz."

GDPR Madde 17(1) kişilere silme hakkı tanır. Gerekçe 26, anonimleştirmenin kişisel bilgileri kapsam dışına çıkardığını belirtir. Bunların hiçbiri görüntü formatları için bir istisna tanımamaktadır. 15 yıllık bir müvekkil dosyası için silme talebini yerine getiremeyen bir hukuk bürosunun uyum açığı vardır — muafiyeti değil.

GDPR'ı nasıl desteklediğimiz için uyum genel bakışımıza ve güvenlik uygulamalarımıza bakın.

Tespit Hattı Nasıl Çalışır

Süreç üç aşamada yürütülür.

Aşama 1 — OCR

OCR motoru görüntüyü okur ve metni çıkarır. Her kelimenin konumunu kaydeder. Çıktı, koordinatlarla makine tarafından okunabilir metindir. El yazısı, soluk mürekkep veya eski yazı tipleri mevcut olduğunda doğruluk düşer.

Aşama 2 — NLP Varlık Tespiti

Adlandırılmış Varlık Tanıma (NVT), OCR metnini tarar. Kişi adlarını, kuruluşları ve konumları bulur. Desen eşleştirme, TC kimlik numaralarını, telefon numaralarını ve hesap numaralarını ekler. Her eşleşme bir güven puanı alır.

Aşama 3 — Anonimleştirme

Tespit edilen varlıklar metin çıktısında değiştirilir. Orijinal görüntü değiştirilmez. Görüntüyü değiştirmek ayrı bir redaksiyon aracı gerektirir. Anonimleştirilmiş metin silme taleplerini, DSAR yanıtlarını ve uyum kayıtlarını destekler.

Modern OCR motorları, temiz baskılı sayfalarda %98–99 karakter doğruluğuna ulaşır. El yazısı veya bozulmuş taramalar %85–92'ye düşer. Varlık düzeyindeki doğruluk genellikle karakter düzeyindeki doğruluktan daha yüksektir. Birkaç harf yanlış olsa bile bir isim, isim olarak tanımlanabilir.

Pratik sonuç: OCR doğruluğu kaç varlık yakaladığınızı etkiler. Yöntemin çalışıp çalışmadığını belirlemez. %90 doğrulukta bile çoğu isim ve numarayı bulursunuz. Uyum çalışması için kalite seviyeleri yine de gereklidir. Yöntemin kendisi sağlamdır.

Büyük Bir Arşivi İşleme

Büyük eski arşivler dört aşamalı bir iş akışı izler.

Aşama 1 — Envanter: Tüm görüntü tabanlı arşivleri listeleyin. Kaynak sistemi ve tarih aralığını not edin. Yüksek silme riski taşıyan kayıtları önce sıraya alın. Müvekkile yönelik dosyalar dahili olanlardan önce gelir.

Aşama 2 — Toplu işleme: OCR ve KKB tespitini gruplar halinde çalıştırın. Grup başına beş ila on bin dosya yaygın bir boyuttur. İşleme geceleri yürütülür. Çıktı, her dosya için bir KKB raporu ve anonimleştirilmiş metin alıntısıdır.

Aşama 3 — Silme karşılanması: Konu, adını ve dönemi içeren bir talep gönderir. Tokenlarını bulmak için anonimleştirilmiş alıntıları arayın. Dosyaları bulun. Redakte edin. İşlemi kaydedin.

Aşama 4 — Süregelen uyum: Yeni taranmış dosyaları arşivlemeden önce aynı hattan geçirin. KKB raporlarını Madde 30 İşleme Faaliyetleri Kaydı kanıtı olarak saklayın.

Vaka Çalışması: Hukuk Bürosu Arşivi

Bir hukuk bürosu denetimi, 1998–2010 yılları arasında taranmış 80.000 görüntü tabanlı PDF müvekkil sözleşmesi buldu. Standart KKB araçları sıfır tespit gösterdi. Görüntü formatı görünmezdi.

On beş eski müvekkil, önceki 12 ayda silme talebinde bulunmuştu. Büro şunu söyledi: "Kayıtlarınızın silindiğini teyit edemiyoruz." Bu yanıt GDPR Madde 17'yi karşılamamaktadır.

Büronun yaptıkları:

  • 80.000 dosyanın tamamında 5.000'lik gruplar halinde OCR ve KKB tespiti çalıştırdı
  • İşleme yaklaşık üç hafta sürdü
  • Sonuç: dosya başına raporlarla 80.000 anonimleştirilmiş metin alıntısı
  • Varlıkları dosya kimliklerine bağlayan aranabilir bir dizin oluşturuldu

İşlemden sonra:

  • Bir konu için dosya bulma: ortalama 4 dakika
  • İstek başına dosya: ortalama 6–8
  • İstek başına redaksiyon süresi: 20–30 dakika

Beklemedeki 15 talebin tamamı 30 gün içinde çözüldü.

Temel nokta: uyum yükümlülüğü işlemden önce mevcuttu. Büronun bunu yerine getirmek için araçları yoktu. OCR tabanlı işleme yeni bir görev yaratmadı. Mevcut bir görevi yerine getirmeyi mümkün kıldı.

OCR Sınırları ve Kalite Seviyeleri

El yazısı, daha düşük OCR doğruluğuna sahiptir. El yazılı içeriği işlemeden önce daha düşük bir güven eşiği belirleyin.

Düşük tarama kalitesi puanları düşürür. OCR çalıştırılmadan önce kontrast artırma ve eğrilik düzeltme yardımcı olur.

Alışılmadık düzenler — çok sütunlu sayfalar, eski hukuki yazı tipleri — de daha düşük puan alabilir.

Uyum çalışması için kalite seviyeleri belirleyin:

  • Sayfa doğruluğu %95 üzerinde: otomatik işlemi çalıştırın
  • %80–95: otomatik işlemi çalıştırın, ardından işaretlenen varlıklar için insan incelemesi yapın
  • %80 altı: manuel incelemeye gönderin

Kademeli bir yaklaşım, denetçilere güvenilirliği nasıl değerlendirdiğiniz konusunda net bir yanıt verir. Çoğu otomatik araç, yüksek güven dosyalarını işler. Manuel bir kuyruk geri kalanlarla ilgilenir. Verim yüksek kalır. Uyum kalitesi de yüksek kalır.

SSS bölümümüz, OCR tabanlı işleme ve denetim izi gereksinimleri hakkında sık sorulan soruları kapsamaktadır.

Kaynaklar

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.