İkili KKB Tespiti Neden Uyumu Karşılamaz
2026 itibarıyla güncellenmiştir.
Her KKB tespit sistemi temel bir sorunla yüzleşir: aynı dize, bir bağlamda kişisel veri olabilirken diğerinde olmayabilir.
Müşteri şikayetindeki "Ahmet" bir veri sahibidir. Tarihi bir belgedeki ünlü bir isim olarak "Ahmet" değildir. Tıbbi kayıttaki dokuz haneli numara bir HIPAA tanımlayıcısıdır. SSN formatıyla eşleşen aynı dokuz haneli ürün kodu değildir.
İkili tespit — tespit edildi/edilmedi bayrağı — bu belirsizliği temsil edemez. Ya tüm olası KKB'leri işaretlemek (aşırı gizleme) ya da yalnızca yüksek kesinlikli eşleşmeleri işaretlemek (yetersiz gizleme) gibi iki yanlış seçeneği dayatır. Savunulabilir ve denetlenebilir anonimleştirme kararları gerektiren uyum bağlamlarında her ikisi de kabul edilemez.
Güven skoru üçüncü bir yol sunar: varlık başına 0–100 arasında bir güven değeri. Bu değer kademeli karar almayı, insan inceleme iş akışlarını ve kapsamlı denetim belgelemesini mümkün kılar.
İkili Bayrakların Sınırlılığı
Bağlam, verinin anlamını değiştirir. İki dosya aynı dizeyi içerebilir; birinde kişisel veridir, diğerinde değildir. Bayrak bunu gösteremez; bir sayı gösterebilir.
Tek bayrakla kullanılabilir iki seçenek de olumsuz çıkar. Aşırı gizleme belgenin değerini yok eder. Yetersiz gizleme hukuki risk yaratır. İkisi de mahkemede tutunmaz.
Hukuki Keşif: Skorların Neden Gerekli Olduğu
Hukuki keşif anonimleştirmesi, güven skoru uygulamasını zorunlu kılan açık kurallar içerir.
Aşırı gizleme sorunu. Avukat adlarının, mahkeme referanslarının veya hukuki atıfların yanlışlıkla gizlenmesi belgenin delil değerini bozar. Mahkemeler, yetersiz gizlemenin yanı sıra aşırı gizleme için de avukatlara yaptırım uygulamıştır.
Yetersiz gizleme sorunu. Gerçek KKB'yi kaçırmak sorumluluk doğurur: müşteri gizliliği ihlalleri, baro şikayetleri ve bazı ülkelerde cezai maruziyet.
Her kararı açıklama zorunluluğu. Bir mahkeme neden belirli bir öğenin gizlendiğini sorduğunda avukatlar bunu gerekçelendirebilmek zorundadır. "Araç bunu işaretledi" yeterli değildir. "Araç bu öğeyi %94 güvenle SSN olarak sınıflandırdı. Protokolümüz %85 üzerini otomatik olarak gizler." Bu yeterlidir.
İkili bayrak bu yanıtı üretemez. Belgelenmiş karar eşikleriyle güven skoru üretebilir.
Üç Katmanlı Güven Çerçevesi
En etkili uyum uygulaması, varlık güvenine dayalı üç katman kullanır.
Katman 1 — Otomatik (%85 üzeri):
- Yüksek kesinlikli örüntülerle eşleşen varlıklar (tam SSN formatı, IBAN, yapılandırılmış MRN)
- İnsan incelemesi olmaksızın otomatik anonimleştirilir
- Denetim günlüğü: varlık türü, güven skoru, yöntem, zaman damgası
- Örnek: "571-44-9283" %97 güvenle SSN olarak tespit edildi → otomatik gizlendi
Katman 2 — İnceleme gerekli (%50–85):
- KKB olabilecek ancak bağlamsal yargı gerektiren varlıklar
- İnsan inceleyicisinin kararı için işaretlenir (gizlemeyi kabul / reddet / yeniden sınıflandır)
- Denetim günlüğü: varlık türü, güven skoru, inceleyici kimliği, karar, zaman damgası
- Örnek: Teknik belgede "Mehmet Yılmaz" → %67 güvenle ad → inceleyici bağlamda gerçek kişi adı olduğunu teyit etti → gizlendi
Katman 3 — Yalnızca bilgi (%50 altı):
- Düşük güvenlikli tespitler öneri olarak sunulur
- Otomatik gizlenmez; inceleyici tercih ederse işlem yapabilir
- Denetim günlüğü: varlık türü, güven skoru, öneri olarak sunuldu, inceleyici kararı
- Örnek: Ürün belgesinde "Ferrari" → %42 güvenle → sunuldu → inceleyici şirket adı olduğunu belirledi → gizlenmedi
Yalnızca Katman 2 insan çalışması gerektirir. Üç katman da denetim kaydı üretir.
Güven Skorları Teknik Olarak Nasıl Oluşturulur
KKB tespit sistemleri, varlık başına tek bir sayı üretmek için birden fazla sinyali birleştirir.
Regex örüntüleri. SSN formatıyla tam eşleşme yüksek temel güven skoru alır. Kısmi eşleşme daha düşük alır.
Model çıktısı. Adlandırılmış varlık modelleri, sınıf başına olasılık atar. KİŞİ sınıflandırması için 0,93 olasılık, yüksek güvenlikli tespit verir.
Bağlamsal sinyaller. Varlığın çevresindeki metin skoru değiştirir. "TC Kimlik Numaram 12345678901" onu yükseltir. "Ürün kodu 12345678901" onu düşürür.
Topluluk skoru. Sistemler, tanımlı ağırlıklarla regex, model ve bağlam sinyallerini birleştirir. Nihai sayı mevcut tüm kanıtı yansıtır.
Bu sayı, iş akışındaki eşik tabanlı her kararı yönlendirir.
Sigorta Sektörü Uygulaması: Savunulabilir Hasar Belgesi İncelemesi
Sigorta dosyaları, açık KKB'yi — sigortalı adı, adresi, SSN — bağlama bağlı verilerle karıştırır: tanık adları, şirket adları, uzman imzaları.
İkili tespit ya tüm isimleri gizler (şirket adları için yanlış) ya da tanık adlarını kaçırır (risk). Güven skoru yaklaşımı her varlığı bağımsız yönetir:
- SSN (%96, "sigortalı SSN" bağlamı) → otomatik gizlendi
- Sigortalı adı (NER KİŞİ, %91) → otomatik gizlendi
- Müteahhit firma (NER ORG, %78) → incelendi → inceleyici gizlemeyi reddetti
- Tanık adı (NER KİŞİ, %82) → incelendi → inceleyici kabul etti
- Uzman adı (NER KİŞİ, %71) → incelendi → inceleyici kabul etti (üçüncü taraf verisi)
Her karar sayısal bir temele dayanır. Denetim izi eksiksizdir.
Uyum Belgelendirmesi Oluşturmak
GDPR Madde 5(1)(f) ve HIPAA Güvenlik Kuralı için güven skoru içeren araçlar otomatik olarak uyum belgelendirmesi üretir.
Varlık düzeyinde denetim kayıtları: Varlık türünü, güven değerini, karar türünü (otomatik/manuel), inceleyici kimliğini ve zaman damgasını yakalar. VKK soruşturmaları için CSV olarak dışa aktarılabilir.
Eşik yapılandırma belgelendirmesi: Mevcut eşik ayarları ve her değişiklik belgesi; kimin, ne zaman, neden değiştirdiği. Kasıtlı, yönetilen bir anonimleştirme politikasını kanıtlar.
İstatistik raporları: İşleme dönemi boyunca varlık türüne göre tespit oranları, Katman 2 inceleme tamamlama oranları ve geçersiz kılma oranları. Bir VKK'nın "kontrollerinizi gösterin" sorusunu yanıtlar.
Bir bayrak bir varsayımdır. Bir skor ise kanıttır.