Heterojen Belge Ortamı Gerçekliği
Herhangi bir uyum görevlisine DSAR yanıtları için hangi belge formatlarını anonimleştirmeleri gerektiğini sorduğunuzda, liste tahmin edilebilir: Word sözleşmeleri, PDF faturaları, Excel müşteri verileri, CSV sistem ihracatları ve bazen JSON günlükleri veya XML akışları.
Kullandıkları araçları sorduğunuzda, yanıt genellikle: her biri farklı varlık kapsamı, farklı yapılandırma arayüzleri ve farklı denetim günlük formatları olan üç ila beş farklı araçtır.
Bu parçalanma kötü planlamanın bir sonucu değildir. Gerçekten tüm üretim belge formatlarını eşit yetenekle ele alan tek bir aracın yokluğunu yansıtır. Her format için özel araçlar mevcuttur. Tüm formatları aynı motor, aynı varlık türleri ve aynı denetim izi ile ele alan birleşik bir araç tarihsel olarak nadirdir.
Bu durumun yarattığı uyum problemi: Birden fazla belge türünü kapsayan DSAR yanıtları, farklı standartlara sahip birden fazla araç kullanılarak anonimleştirilir. Ortaya çıkan tutarsızlık — varlık X PDF'de anonimleştirilirken Excel ihracatında anonimleştirilmemesi çünkü Excel aracı farklı bir varlık listesi kullanıyor — tam olarak DPA denetimlerinin yüzeye çıkardığı türden bir uyum boşluğu yaratır.
Format-Özel Zorluklar
Her belge formatı, PII tespiti için farklı teknik zorluklar sunar:
PDF'ler yerel metin (seçilebilir) veya görüntü tabanlı (tarama) olabilir. Görüntü tabanlı PDF'ler, metin analizinden önce OCR gerektirir, bu da hata oranlarını artırır. Yerel PDF'ler, varlık tespitini kelime sınırlarını aşacak şekilde bozabilen metin parçaları (her kelime ayrı bir metin nesnesi olarak saklanır) içerebilir. Çok sütunlu düzenler, metin analizinden önce okuma sırasının yeniden yapılandırılmasını gerektirir.
Word (DOCX)
DOCX belgeleri, belge metnini XML formatında içerir, ancak ayrıca: başlıklar, alt başlıklar, yorumlar, izlenen değişiklikler, metin kutuları ve dipnotlar içerir. Başlık/alt başlıklardaki PII (antet adresleri, iletişim bilgileri) genellikle yalnızca ana metni analiz eden araçlar tarafından gözden kaçırılır. İzlenen değişiklikler, işlenmiş belgede görünmeyen ancak dosya yapısında mevcut olan PII içeren silinmiş metinler içerebilir.
Excel (XLSX)
Excel'in iki boyutlu yapısı, PII'nin yüzlerce sütun ve binlerce satırda herhangi bir hücrede görünebileceği anlamına gelir. Sütun başlıkları, NER modellerinin yalnızca metin analizinden almadığı bağlam sinyalleri ("SSN", "Email", "Phone") sağlar. Hücre değerleri, formatı tanıyan yorum gerektiren sayılar (tarihler, tire olmadan SSN'ler) olarak saklanabilir. Birden fazla sayfa, tutarlı bir şekilde ele alınması gereken ilişkili PII içerebilir.
CSV
CSV, birçok uygulamada sütun başlıkları olmadan Excel'e yapısal olarak benzer. "Notlar" veya "yorumlar" sütunlarındaki alan değerleri serbest metin olup PII'yi PII olmayan içerikle birlikte içerebilir. Kodlama sorunları (UTF-8 vs. Latin-1), Avrupa PII'sindeki ASCII dışı karakterler için tespit hatalarına neden olabilir.
JSON
İç içe yapı, PII'nin derinlemesine yerleşik olabileceği anlamına gelir (user.address.street.line1). Dizi değerleri yineleme gerektirir. Farklı nesnelerdeki aynı alan adı, farklı PII özelliklerine sahip olabilir. Şema farkındalığına sahip analiz ("email" alanlarının her zaman e-posta adresleri içerdiğini bilmek) içerik tabanlı tespit ile birleştirilmelidir.
Formatlar Arası Tutarsızlığın Neden Uyum Problemi Olduğu
GDPR DSAR senaryosu, tutarsızlık riskini somut bir şekilde gösterir:
Bir veri sahibi, kendileri hakkında tutulan tüm kişisel verileri talep eden bir DSAR sunar. Uyum ekibi şunları bulur:
- 3 Word belgesi (sözleşmeler, yazışmalar)
- 2 PDF belgesi (faturalar, destek transkriptleri)
- 1 Excel elektronik tablosu (müşteri hesap verileri)
- 1 CSV ihracı (sistem erişim günlükleri)
Uyum ekibi, PDF'ler için Araç A'yı (mükemmel kapsam), Word için Araç B'yi (iyi kapsam ama başlık/alt başlıkları kaçırıyor), XLSX için bir Excel makrosunu (belirgin sütunları kapsıyor, serbest metin alanlarını kaçırıyor) ve CSV için hiçbir aracı (manuel inceleme) kullanır.
Veri sahibi anonimleştirilmiş bir paket alır. Excel elektronik tablosunda, "yönetici notları" serbest metin sütunu makro tarafından işlenmemiştir. Word belgelerinde, sayfa başlığındaki antet adresi Araç B tarafından gözden kaçırılmıştır. Her iki öğe de veri sahibinin anonimleştirilmesini talep ettiği PII içermektedir.
GDPR Madde 17 (silme hakkı) veya Madde 15 (erişim hakkı) uyarınca, uyum ekibi eksik bir DSAR yanıtı üretmiştir. Eğer veri sahibi veya bir DPA bu boşluğu keşfederse, tutarsız araç kullanımı uyum başarısızlığına katkıda bulunan bir faktördür.
Format Tutarlılığı Bir Uyum Gereksinimi Olarak
En katı DSAR uyum çerçeveleri, yalnızca hangi PII türlerinin anonimleştirilmesi gerektiğini belirtmekle kalmaz, aynı zamanda belirli bir yanıt içindeki tüm formatlarda aynı anonimleştirme standardının uygulanması gerektiğini de belirtir.
Bu, şunları ifade eder:
- Word, PDF, Excel, CSV ve JSON'da kontrol edilen aynı varlık türleri
- Uygulanan aynı güven eşiği
- Kullanılan aynı yer değiştirme belirteçleri (tek bir yanıt setindeki belgelerde tutarlı anonimleştirme belirteçleri)
- Yanıtta tüm formatları kapsayan tek bir denetim izi
Tek platform format desteği, tüm formatlarda aynı şekilde uygulanan yapılandırma ön ayarlarını etkinleştirir. Kuruluşunuz için yapılandırılan "DSAR AB Bireyleri" ön ayarı, bir PDF sözleşmesinde, bir Excel müşteri kaydında ve bir CSV sistem günlüğünde aynı 32 varlık türünü kontrol eder — çünkü aynı motor her üçünü de işler.
Karışık Format Setlerinin Toplu İşlenmesi
DSAR uyumu için ölçeklenebilirlikte, toplu işleme karışık format setlerini birim olarak ele almalıdır:
Girdi: Bir veri sahibi için tutulan tüm verileri temsil eden çeşitli formatlarda (PDF, DOCX, XLSX, CSV) 15 dosya içeren klasör
İşleme:
- Her dosya için format tespiti
- Her format için uygun ayrıştırıcı (PDF metin çıkarımı, DOCX XML ayrıştırma, XLSX hücre yinelemesi, CSV alan ayrıştırma)
- Tüm formatlardan çıkarılan metin için aynı NLP hattı uygulanır
- Toplu dosyaların tümüne aynı ön ayar yapılandırması uygulanır
- Tutarlı anonimleştirme belirteç havuzu (eğer "John Smith" 3 farklı belgede görünüyorsa, tüm 3'ünde aynı yer değiştirme belirteci kullanılır)
Çıktı:
- Orijinal formatlarında tüm 15 dosyanın anonimleştirilmiş versiyonları
- Tespit edilen tüm varlıkları, belge kaynağını, güveni ve alınan eylemi gösteren formatlar arası denetim raporu
Formatlar arası denetim raporu, uyum belgeleridir: tüm 15 dosyanın aynı standartla, aynı varlık kapsamıyla, aynı yapılandırma altında işlendiğini kanıtlayan tek bir belge.
DPA denetimleri için, bu "PDF'leri Adobe ile, Excel'i bir makro ile ve CSV'yi manuel olarak işledik" demekten çok daha savunulabilir.
DSAR Ekipleri için Pratik Entegrasyon
Düzenli DSAR hacimlerini yöneten uyum ekipleri için, birleşik format desteği ile iş akışı:
- Veri sahibi için tüm belgeleri toplayın (sistemlerden manuel toplama)
- Anonimleştirme platformunda DSAR topluluğu oluşturun (formatına bakılmaksızın tüm dosyaları sürükleyin)
- "DSAR AB Bireyleri" ön ayarını seçin (tüm GDPR gereksinimlerine uygun varlık türlerini kapsar)
- Toplu işlemi çalıştırın
- Anonimleştirilmiş çıktıları ve konsolide denetim raporunu indirin
- Kalite kontrol: toplu çıktılardan 2-3 belgeyi kontrol edin
- Veri sahibi yanıtı için anonimleştirilmiş belgeleri paketleyin
- Denetim raporunu DSAR vaka kaydına ekleyin
Manuel toplama (adım 1) ana zaman maliyeti olmaya devam eder. Adımlar 2-8, tipik bir DSAR topluluğu için 10 dakikadan az sürer. Adım 5'te üretilen denetim raporu, GDPR hesap verebilirlik ilke gereksinimleri için uyum belgelerini sağlar.
Kaynaklar: