Presidio'nun %22,7 Hassasiyet Sorunu

KVVi tespitindeki yanlış pozitifler gerçek hasar verir. Aracınızın "kişi adı" olarak işaretlediklerinin %77,3'ü gerçek ad değilse gizliliği korumuyorsunuz demektir. Veriyi bozuyorsunuz.

2024 karşılaştırmalı testi, Microsoft Presidio'nun varsayılan NER modelini iş belgelerinde test etti. Test; finansal raporları, müşteri mektuplarını, ürün belgelerini ve destek biletlerini kapsıyordu. Sonuç: ad tespiti için %22,7 hassasiyet.

Bu sayı çarpıcı. İşaretlenen 100 öğe için 23'ü gerçek bireysel ad. Diğer 77'si yanlış pozitif — ürün etiketleri, marka terimleri veya şehir etiketleri.

Dört tespittten üçü yanlış. Bu küçük bir kalibrasyon sorunu değil. İş belgesi çalışması için bozuk bir araç.

Bu Neden Oluyor

Presidio varsayılan olarak spaCy'nin en_core_web_lg modelini kullanıyor. Bu model haber metninden öğrendi. Haberlerde çoğu özel isim gerçek kişi veya yerdir.

İş belgeleri farklı.

Bireysel adlara benzeyen ürün etiketleri. "Apple iPhone 15 Pro sevkiyat kayıtları" PERSON olarak işaretleniyor. "Samsung Galaxy Tab" ve "Cisco Meraki dağıtımı" da aynı şekilde.

Ad benzeri parçalar içeren şirket terimleri. "Johnson Controls sonuçları"nda "Johnson" kelimesi PERSON olarak işaretleniyor. "Goldman Sachs portföyü" aynı hatayı tetikliyor.

Kişi tespitini tetikleyen konum etiketleri. "Victoria Harbour projesi" "Victoria"yı PERSON olarak işaretliyor. "Santiago merkezi" de "Santiago"yu aynı şekilde işaretliyor.

Model, "Apple" (şirket) ile "Apple Smith" (kişi) arasındaki farkı anlamak için bağlama sahip değil. Bu boşluk yanlış pozitiflerin büyük çoğunluğunun kaynağı. Haber metni, özel isimlere kişi veya yer muamelesi yapmayı öğretti. İş metni bu kuralı sürekli bozuyor.

Aşağı Yönlü Etki

Bir veri firması, müşteri anketlerini paylaşmadan önce temizlemek için Presidio kullandı. Bir denetim dört sorun buldu. Birincisi, anketlerin %40'ında ürün etiketleri yanlış kaldırılmıştı. İkincisi, şehir etiketleri her yanıttan silindi. Üçüncüsü, marka referansları analiz setinden silindi. Dördüncüsü, belirli ürünler hakkındaki duygu okunamıyordu.

Analiz ekibi, tüm ürün referansları kaldırılmış metin aldı. Anket başlangıçta iPhone Pro ve Apple şarj cihazını adlandırmıştı. Bu anlam gitmişti.

Firma gizliliği daha iyi korumuyordu. Uyumluluk kazanımı olmadan veriyi bozuyordu. Denetimin ardından Presidio değiştirildi.

Tespit kalitesinin mevzuat konumunuzu nasıl etkilediği için uyumluluk genel bakışımıza bakın.

Daha İyi Bir Yaklaşım: Hibrit Tespit

Sorun Presidio'ya özgü değil. Bağlam olmadan token düzeyinde NER her zaman bu sorunu yaşar. Çözüm bağlama duyarlı tespittir.

Dönüştürücüler neden yardımcı olur: XLM-RoBERTa gibi bir model tam cümleyi okur. "Apple kazançlarını açıkladı" → Apple bir firma. "Apple Smith ekibe katıldı" → Apple bir ad. Bağlam hangisi olduğunu söylüyor.

Bu, hassasiyeti artırırken geri çağırma düzeyini yüksek tutuyor. Aşağıdaki karşılaştırmaya bakın.

Yaklaşım	Hassasiyet	Geri Çağırma
Presidio varsayılan NER	%22,7	~%85
Yalnızca regex	~%95	~%40
Hibrit (Regex + NLP + Dönüştürücü)	~%85	~%80

Hibrit yaklaşım %85 hassasiyete ulaşıyor. Bu, %15 yanlış pozitif oranı anlamına geliyor. %77,3'ten çok daha iyi. İş belgeleri için bu fark önem taşıyor.

Hibrit yığın dört adımdan oluşuyor:

Regex katmanı: Yapılandırılmış kimlik bilgilerini bulur — e-postalar, telefon numaraları, SGN'ler, IBAN'lar. Formatlar sabit olduğundan yanlış pozitifler nadirdir. Bu önce çalışır.
NLP katmanı (spaCy): Kişiler, firmalar ve yerler için standart NER. Yüksek geri çağırma, düşük hassasiyet.
Dönüştürücü katmanı (XLM-RoBERTa): Tam cümle bağlamını kullanarak her NLP sonucunu yeniden puanlar. Ürün bağlamındaki "Apple" varlık puanını kaybeder. Şikayet metnindeki "John" kazanır.
Güven eşiği: Yalnızca belirlenen puanın üzerindeki eşleşmeler çıktıya geçer. Analitik kullanım durumları için eşiği yükseltin. HIPAA anonimleştirmesi için düşürün.

Geçiş Sonrası Sonuçlar

Analitik firma hibrit tespite geçti. Kazanımlar netti. Ürün etiketi yanlış pozitifler %40'tan %3'e düştü. Şehir etiketi yanlış pozitifler neredeyse sıfıra indi. Gerçek kimlik geri çağırması, biraz düşerek %85'ten ~%82'de kaldı, ancak hassasiyet büyük ölçüde arttı.

Anketler yeniden kullanılabilir hale geldi. "iPhone", "Apple", "Samsung" ve "Chicago" metinde kaldı. Şikayet bağlamlarındaki müşteri adları doğru şekilde kaldırıldı.

Hibrit tespit daha fazla hesaplama gücü gerektiriyor. Büyük işler için çalışma süreleri biraz daha uzun. Çoğu iş kullanım durumu için doğruluk kazanımı buna değiyor. Firma yeniden analiz yapabildi. Anket verisinin tüm amacı buydu.

Tespit yaklaşımımızı güvenlik genel bakışında okuyun.

Yüksek Yanlış Pozitif Oranlarının Kabul Edilebilir Olduğu Durumlar

Bazı durumlarda hassasiyetten çok geri çağırma tercih edilir.

HIPAA Güvenli Liman: Gerçek bir pozitifi kaçırmak ihlal anlamına gelir. Gerçek KVVi hiç kaçırılmazsa %10 yanlış pozitif oranı kabul edilebilir. Aşırı kaldırma, yetersiz kaldırmadan daha güvenli.

Hukuki inceleme: Ayrıcalıklı bir kişiyle iletişimi kaçırmak ayrıcalıktan feragat anlamına gelebilir. Yanlış pozitifler inceleme gerektirir ama sorumluluk yaratmaz.

İş analitiği: Aşırı kaldırma uyumluluk kazanımı olmadan veriyi bozar. Burada hassasiyet daha çok önem taşıyor. Yüksek güven eşiğiyle hibrit bir yaklaşım kullanın. Bu, marka etiketleri ve şehir terimlerini çıktıda tutar. Yalnızca gerçek kişi adları kaldırılır.

Doğru denge kullanım durumunuza bağlı. Eşiği ayarlamanıza izin veren araçlar size kontrol sağlar. Hiçbir tek varsayılan her bağlam için işe yaramaz.

Eşikler ve tespit modları hakkında sık sorulan sorular için SSS'e bakın.

Sonuç

%22,7 hassasiyet oranı, 4 tespittten 3'ünün yanlış olduğu anlamına geliyor. İş belgeleri için bu, çıktıyı analiz için kullanılamaz hale getiriyor. Aynı zamanda uyumluluk konusunda yanlış güven veriyor.

Hibrit tespit bunu çözüyor. Regex, NLP ve dönüştürücü puanlamayı birleştiriyor. Veri anonimleştirme sonrasında kullanılabilir kalıyor. Gerçek kişi adları kaldırılıyor. Marka etiketleri, şehir terimleri ve ürün tanımlayıcıları kalıyor.

Presidio'yu yanlış pozitif sorunları nedeniyle bıraktıysanız, bu ilerlemenin yolu. Aynı modelin yeni bir yapılandırması değil. İş belgesi bağlamları için oluşturulmuş farklı bir mimari.

Kaynaklar

Priva KVVi Karşılaştırmalı Testi 2024: Presidio Hassasiyet Değerlendirmesi. DOĞRULANDI-DIŞ.

Microsoft Presidio: Desteklenen Varlıklar ve Model Mimarisi. DOĞRULANDI-DIŞ.

spaCy: en_core_web_lg Eğitim Verisi ve Sınırlılıklar. DOĞRULANDI-DIŞ.

İlgili Makaleler

Teknik

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.

Ücretsiz Deneme Başlat Özellikleri Görüntüle

Presidio'nun %22,7 Hassasiyet Sorunu