Kimsenin Konuşmadığı Eski Arşiv Sorunu
GDPR uyum denetimleri gerçekleştiren kuruluşlar genellikle aynı tür gizli riskle karşılaşırlar: dijitalleştirme programlarının uygulanmasından önceki görüntü tabanlı PDF arşivleri.
20 yıllık taranmış müşteri dosyalarına sahip hukuk firmaları. On yıllardır taranmış hasta kabul formlarına sahip sağlık hizmeti sağlayıcıları. Taranmış tarihi kayıtlara sahip devlet daireleri. Görüntülenen kredi başvuruları ve hesap belgeleri olan bankalar.
Bu arşivlerin ortak bir özelliği vardır: belgeler taranmış görüntüler (raster PDF, TIFF veya JPEG) olarak saklanır, metin tabanlı dijital belgeler olarak değil. Arama yapılacak bir metin katmanı yoktur, standart PII araçlarının analiz edebileceği makine okunabilir içerik yoktur. Geleneksel bir anonimleştirme aracı için bu belgeler görünmezdir.
Yanlış anlama: "Bunlar sadece görüntü dosyaları — GDPR gerçekten uygulanmaz."
GDPR metni açıktır. Madde 17(1), veri sahiplerine kişisel verilerin silinmesi hakkını verir. Gerekçe 26, kişisel verilerin anonimleştirilmesinin, tanımlanabilir bir gerçek kişi ile artık ilişkili olmayan veriler için standart olduğunu doğrular. Hiçbir hüküm, kağıttan türetilmiş görüntü formatları için bir muafiyet içermez.
15 yıl önce hizmet verilmiş bir müşteri için silme talebine yanıt veremeyen bir hukuk firması — çünkü 15 yıllık müşteri kayıtları yalnızca taranmış görüntü PDF'leri olarak mevcuttur — bir GDPR uyum açığına sahiptir, muafiyete değil.
Görüntü Tabanlı PII Tespitinin Çalışma Şekli
Görüntü tabanlı belge PII tespiti için teknik boru hattı iki aşamayı entegre eder:
Aşama 1: Optik Karakter Tanıma (OCR)
- Girdi: taranmış PDF veya görüntü dosyası
- OCR motoru, taranmış görüntüden metin çıkarır
- Çıktı: konum koordinatları ile makine okunabilir metin
- Zorluk: el yazısı, kötü tarama kalitesi, solmuş mürekkep ve eski yazı tipleri OCR doğruluğunu azaltır
Aşama 2: NLP PII Tespiti
- Girdi: OCR ile çıkarılan metin
- İsimli Varlık Tanıma (NER), kişi isimlerini, organizasyonları, yerleri tanımlar
- Desen eşleştirme, SSN'leri, telefon numaralarını, e-posta adreslerini, hesap numaralarını tanımlar
- Çıktı: güven puanları ve konum referansları ile tespit edilen PII varlıkları
Aşama 3: Anonimleştirme
- Tespit edilen varlıklar, çıkarılan metin çıktısında anonimleştirilir
- Görüntü PDF'leri için: çıktı, anonimleştirilmiş bir metin belgesidir (orijinal görüntü değiştirilmez — görüntü değişikliği PDF redaksiyon araçları gerektirir)
- Anonimleştirilmiş metin, DSAR yanıtlarını, silme talebi yerine getirmeyi ve uyum belgelerini sağlar
OCR kalitesi, birincil teknik kısıtlamadır. İyi kalitede basılı belgeler için modern OCR motorları %98-99 karakter doğruluğu sağlar. El yazısı veya bozulmuş taramalar için doğruluk %85-92 olabilir. PII tespiti amaçları için, varlık düzeyindeki doğruluk (belgede bir ismin göründüğünü doğru bir şekilde tanımlamak, bireysel karakterlerin küçük hataları olsa bile) genellikle karakter düzeyindeki doğruluktan daha yüksektir.
Büyük Arşivler için Pratik İşleme
Büyük eski arşivlere sahip kuruluşlar için operasyonel iş akışı:
Envanter aşaması:
- Tüm görüntü tabanlı PDF arşivlerini kaynak sistem ve tarih aralığına göre kataloglayın
- Hacmi tahmin edin ve silme hakkı riski (müşteri ile ilgili kayıtlar öncelikli) ile önceliklendirin
Parti işleme:
- Arşivleri partiler halinde işleyin (tipik olarak 5,000-10,000 dosya per parti)
- OCR + PII tespiti eşzamanlı olarak çalışır
- Çıktı: dosya başına PII tespit raporları ve anonimleştirilmiş metin çıkarımları
Silme talebi yerine getirme:
- Veri sahibi, adı ve ilgili dönem ile silme talebi gönderir
- Anonimleştirilmiş metin çıkarımlarında veri sahibine bağlı takma adlı token'ları arayın
- Veri sahibinin kayıtlarını içeren belirli belgeleri tanımlayın
- O belirli belgeleri redaksiyon için işleyin (orijinal görüntü PDF'sini değiştirme)
- Silme eylemini belgeleyin
Sürekli uyum:
- Yeni taranmış belgeler, arşivlemeden önce aynı boru hattı üzerinden işlenir
- PII tespit raporları, GDPR Madde 30 İşleme Faaliyetleri Kayıtları kanıtı olarak saklanır
Kullanım Durumu: Hukuk Firması 20 Yıllık Arşiv
Bir hukuk firması, bir GDPR denetimi gerçekleştirirken 1998 ile 2010 arasında taranmış 80,000 görüntü tabanlı PDF müşteri sözleşmesi keşfetti. Standart PII araçları sıfır tespit döndürdü — görüntü tabanlı format görünmezdi.
Uygunluk sorunu somut hale geldi: 15 eski müşteri, önceki 12 ay içinde silme talepleri göndermişti. Firmanın yanıtı: "Verilerinizin silindiğini doğrulayamayız çünkü tarihsel kayıtlarımız işlenemeyen görüntü formatındadır." Bu, GDPR Madde 17 uyarınca uyumlu bir yanıt değildir.
İşleme yaklaşımı:
- Tüm 80,000 belgede 5,000'lik partiler halinde OCR + PII tespiti
- İşleme süresi: yaklaşık 3 hafta parti işleme
- Sonuç: dosya başına PII tespit raporları ile 80,000 anonimleştirilmiş metin çıkarımı
- Belge kimliklerine bağlı tespit edilen varlıkların aranabilir dizini
Silme talebi yerine getirme sonrası işleme:
- Belirli bir veri sahibi için belgeleri tanımlama ortalama süresi: 4 dakika (anonimleştirilmiş metin çıkarımları üzerinde arama)
- Silme talebi başına belge sayısı: ortalama 6-8 belge
- Tanımlanan belgelerin redaksiyonu: talep başına 20-30 dakika
Daha önce imkansız olan uyum yükümlülüğü: yerine getirildi. 15 bekleyen silme talebi, arşiv işleminin tamamlanmasından 30 gün içinde çözüldü.
OCR Sınırlamaları ve Kalite Yönetimi
Eski belgeler için OCR tabanlı PII tespitinin dürüst bir değerlendirmesi, sınırlamaların kabul edilmesini gerektirir:
El yazısı doğruluğu: El yazısı belgeler (kişisel beyanlar, elle doldurulmuş başvuru formları) basılı belgelere göre daha düşük OCR doğruluğuna sahiptir. El yazısı içerik üzerinde PII tespiti, güven eşiği ayarlaması gerektirir.
Bozulmuş tarama kalitesi: Düşük çözünürlükte veya kötü pozlama ile taranan belgelerin OCR doğruluğu düşüktür. Ön işleme (kontrast artırma, düzeltme) sonuçları iyileştirebilir.
Alışılmadık yazı tipleri ve formatlar: Ön dijital yazı tipleri, alışılmadık düzenlere sahip hukuki belge formatları ve çok sütunlu belgeler daha düşük OCR doğruluğuna sahip olabilir.
Kalite eşiği ayarı: Uyum belgeleri için, belgeleri OCR güvenine göre sınıflandırmak uygundur: yüksek güven (> %95 sayfa doğruluğu) otomatik işleme için uygun; orta güven (%80-95) otomatik işleme için uygun, ancak işaretlenen varlıkların insan incelemesi gerektirir; düşük güven (< %80) manuel inceleme gerektirir.
Büyük bozulmuş tarihi belgeler arşivine sahip kuruluşlar için, yüksek güvenli belgeler için otomatik işleme, düşük güvenli belgeler için manuel inceleme kuyruğu içeren hibrit bir yaklaşım, uyum kalitesini korurken pratik bir verim sağlar.
Kaynaklar: