Gizli GDPR Uyum Açığı
GDPR'ın bir dil tercihi yoktur. Madde 4(1), "kişisel verileri" hangi dilde göründüğüne atıfta bulunmadan tanımlar. Bir Alman Steuer-ID, bir ABD Sosyal Güvenlik Numarası kadar korunmaktadır. Bir Fransız NIR, bir İngiltere Ulusal Sigorta numarası kadar düzenlenmiştir.
Ancak çoğu PII tespit aracı İngilizce için geliştirilmiştir.
ACL 2024'te yayımlanan araştırma, hibrit NLP yaklaşımlarının Avrupa yerelleri için 0.60-0.83 F1 puanları elde ettiğini bulmuştur - ancak İngilizceye özgü araçlar, İngilizce olmayan metinlere uygulandığında, yapılandırılmış ulusal tanımlayıcılar için sıfıra yakın puan alır. Pratik sonuç: Çok uluslu bir organizasyonda kullanılan bir anonimleştirme aracı, İngilizce PII'nin %95'ini tespit ederken, aynı veri setinde Alman, Fransız, Polonyalı veya Hollandalı PII'nin %40-60'ını kaçırıyor olabilir.
Bu, İngilizce merkezli anonimleştirme araçları kullanan hemen hemen her çok uluslu işletmeyi etkileyen sistematik bir GDPR uyum açığıdır.
Neden PII Dil-Spesifik
PII tespiti iki bileşene sahiptir: desene dayalı tespit (vergi kimlikleri, telefon formatları gibi yapılandırılmış tanımlayıcılar) ve NER tabanlı tespit (kişi isimleri, organizasyon isimleri, adresler gibi bağlamsal varlıklar).
Her iki bileşen de derinlemesine dil-spesifik özellikler taşır.
Yapılandırılmış Tanımlayıcılar Ülkeye Göre Radikal Olarak Farklılık Gösterir
| Ülke | Vergi Tanımlayıcı | Format | Tespit Gereksinimi |
|---|---|---|---|
| Almanya | Steuer-ID | 11 rakam, kontrol algoritması | Modulo-11 doğrulama |
| Fransa | NIR | 15 rakam + 2 haneli anahtar | INSEE algoritması doğrulaması |
| İsveç | Personnummer | 10 rakam, yüzyıl göstergesi | Luhn doğrulaması |
| Polonya | PESEL | 11 rakam, doğum tarihi kodlanmış | Modulo-10 doğrulama |
| Hollanda | BSN | 9 rakam, elfproef (11 kontrol) | Elfproef algoritması |
| İspanya | DNI/NIE | 8 rakam + harf | Modulo-23 doğrulama |
| İtalya | Codice Fiscale | 16 alfanümerik | Karmaşık kontrol |
Bir İngilizceye özgü regex deseni (format: NNN-NN-NNNN) bu tanımlayıcılardan hiçbirini eşleştirmeyecektir. Her biri, ülkeye özgü regex mantığı ve kontrol doğrulaması gerektirir.
İsim Varlık Tanıma Dil-Yerli Modeller Gerektirir
Almanca isimler, İngilizce isimlerden farklı desenleri takip eder. "Hans-Dieter Müller" ve "Anna-Lena Schreiber-Koch" bağlam tarafından Almanca isimler olarak tanınabilir - ancak esas olarak İngilizce metin üzerinde eğitilmiş bir model, bunları sık sık kaçırır veya yanlış sınıflandırır.
Daha sorunlu: bir dildeki yanlış pozitifler, başka bir dilde yanlış negatiflere dönüşebilir. Microsoft Presidio GitHub sorun takipçisi, Almanca kelimelerin İngilizce PII olarak yanlış sınıflandırılmasına dair sistematik yanlış pozitifleri belgeler. Aynı "Null" (Almanca "sıfır") kelimesi, İngilizce eğitilmiş modellerde isim tespiti yanlış pozitiflerine neden olur. Bu, çok dilli üretim ortamlarında gerçek bir varlık başına 3 hata oranına kadar yanlış pozitif oranlarını artırır (Alvaro ve diğerleri, 2024).
Düzenleyici Maruziyet
AB veri koruma otoriteleri bu açığın farkına varıyor. Birçok ulusal DPA, çok dilli işleme ile ilgili kılavuzlar veya yaptırım eylemleri yayınlamıştır:
Alman BfDI: GDPR Madde 5(1)(f) (bütünlük ve gizlilik) ile ilgili olarak, üçüncü taraf araçlar tarafından işlenen İngilizce olmayan veriler de dahil olmak üzere, tüm işleme biçimlerinde verilerin geçerli olduğunu açıklamıştır.
Fransız CNIL: 2024 CNIL Yıllık Raporu, Fransızca veri işleyen AI araçlarıyla ilgili artan endişeleri not etmiştir.
Avrupa DPA'ları genel olarak: GDPR Madde 25 (Tasarımda Gizlilik) uyarınca, teknik önlemler, işlenen gerçek verilere uygun olmalıdır - bu da çok uluslu dağıtımlarda İngilizce olmayan PII'yi içerir.
Pratik risk: Bir organizasyon, bir GDPR denetimi sırasında İngilizce içerikte %95 PII tespit etkinliği gösterebilir, ancak aynı araçla Almanca, Fransızca ve Lehçe içerik işliyorsa, denetim bu diller için sistematik açıkları ortaya çıkarabilir.
Çok Dilli PII Tespiti için Üç Aşamalı Yaklaşım
Akademik araştırmalar ve üretim dağıtımları, çok dilli PII tespiti için en etkili yaklaşım olarak üç aşamalı hibrit mimari üzerinde birleşmiştir:
Aşama 1: Dil-Yerli spaCy Modelleri (Yüksek Kaynaklı Diller)
spaCy, Almanca, Fransızca, İspanyolca, Portekizce, İtalyanca, Hollandaca, Rusça, Çince, Japonca, Korece, Lehçe ve diğerleri dahil olmak üzere 25 dil için eğitilmiş boru hattı bileşenleri sağlar. Bu modeller, yerel dil korpusları üzerinde eğitilmiştir ve her dilin morfolojisini, sözdizimini ve varlık desenlerini anlar.
Almanca için: spaCy de_core_news_lg modeli bileşik isimleri, durum çekimlerini ve Almanca isim desenlerini anlar.
Fransızca için: fr_core_news_lg, unvanlar, yer isimleri ve organizasyon formatları gibi Fransızca varlık desenlerini işler.
Dil-yerli modeller, belirli yüksek kaynaklı dillere uygulanan çapraz dilli modellere göre isim tespitinde önemli ölçüde daha yüksek hassasiyet ve geri çağırma oranları elde eder.
Aşama 2: Stanza (Ek Diller)
Stanford'un Stanza kütüphanesi, spaCy'nin ticari teklifinde yer almayan ek diller için NER sağlar; bunlar arasında Hırvatça, Slovence, Ukraynaca ve diğerleri bulunmaktadır. Bu, daha küçük ama yine de önemli AB konuşmacı popülasyonlarına sahip dillere kapsamı genişletir.
Aşama 3: XLM-RoBERTa (Çapraz Dilli Kapsama)
Ne spaCy ne de Stanza'nın eğitilmiş NER modelleri sağlamadığı diller için, XLM-RoBERTa çapraz dilli transfer sağlar. 100 dilde Common Crawl verileri üzerinde eğitilen XLM-RoBERTa, PII tespiti için %91.4 çapraz dilli F1 (HuggingFace 2024) elde eder ve düşük kaynaklı diller için makul tespit sağlar.
Çapraz dilli model, kod geçişini (karışık dil metni) özellikle iyi yönetir - bu, tek bir belgenin birden fazla dilde metin içerebileceği uluslararası organizasyonlar için kritik bir özellik haline gelir.
Dil-Spesifik Varlık Türleri
Tespit modelinin ötesinde, GDPR uyumu, ülkeye özgü tanımlayıcılar için varlık türü kapsamı gerektirir. Çok dilli bir aracın ihtiyaçları:
AB Ulusal Tanımlayıcıları:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET, numéro de téléphone
- PL: PESEL, NIP, REGON
- NL: BSN, BurgerServiceNummer
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Telefon Numarası Formatları: Her AB ülkesinin benzersiz mobil ön ek yapıları, alan kodu formatları ve yerel arama gelenekleri vardır. +49 (Almanya), +33 (Fransa), +48 (Polonya) ülkeye özgü doğrulama gerektirir.
Adres Formatları: Posta kodu formatları radikal olarak farklılık gösterir - Alman PLZ (5 rakam), Fransız code postal (01-99 arasında başlayan 5 rakam), İngiltere posta kodu (alfanümerik, birden fazla format), İspanyol código postal (5 rakam 01000-52999).
Kullanım Durumu: İsviçre İlaç Çok Dilli Belgeleri
Bir İsviçre ilaç şirketi, aynı belgede Almanca, Fransızca ve İngilizce metin içeren istihdam sözleşmelerini işler (İsviçre'nin dört resmi dili vardır). Mevcut aracı Almanca için yapılandırılmıştır ve tüm Fransızca bölüm PII'yi kaçırmaktadır.
Cenevre merkezli bir çalışan için bir istihdam sözleşmesi, Fransız AVS numarasını (13 rakam), İsviçre banka hesabı IBAN'ını, ikamet ettiği kantonu ve adını Fransız formatında referans alır. Almanca yapılandırılmış araç, Fransız formatındaki ismi kaçırır, Fransız AVS numarası desenini (Almanca AHV-Nummer formatından farklı) tespit edemez ve yalnızca IBAN'ı kısmen tespit eder.
Üç aşamalı yaklaşım, belgeyi bir bütün olarak işler, her metin segmenti için dili otomatik olarak tespit eder, diline uygun NER modellerini uygular ve her ulusal tanımlayıcı türü için ülkeye özgü regex doğrulayıcıları kullanır - hangi dil bölümünde göründüğüne bakılmaksızın.
Karışık Dilli Belge Yönetimi
En zor çok dilli PII sorunu belge içi dil karışımıdır: farklı dillerde paragraflar, kod geçişli cümleler veya çevresindeki bağlamdan farklı bir dilde alıntılanmış metin içeren bir belge.
Örnekler:
- Bir Alman şirketinin İngilizce dilindeki sözleşmesi, Alman çalışan verileri (isimler, vergi kimlikleri) ile birlikte
- İngilizce dilinde bir gizlilik politikası alıntısı içeren Fransızca GDPR onay formu
- Ajanın İngilizce yanıt verdiği ancak müşterinin Arapça yazdığı çok dilli müşteri hizmetleri sohbet kaydı
XLM-RoBERTa bunu yerel olarak yönetir: çapraz dilli eğitimi, açık dil beyanları gerektirmediği ve karışık dil metnini segmentasyon gerektirmeden işlediği anlamına gelir.
Üretim dağıtımları için, otomatik dil tespiti (cümle düzeyinde uygulanan) ve XLM-RoBERTa çapraz dilli çıkarımının birleşimi, karışık dilli belgelerin en sağlam şekilde yönetilmesini sağlar.
Pratik Dağıtım Rehberi
Mevcut aracınızın dil kapsamını denetleyin: Mevcut anonimleştirme tedarikçinizden verilerinizdeki belirli diller için F1 puanlarını sağlamasını isteyin. "20 dili destekliyor" genellikle aracın metni Google Çeviri üzerinden geçirip ardından İngilizce eğitilmiş NER uyguladığı anlamına gelir - bu, dil-yerli tespit ile aynı değildir.
Verilerinizi dillere haritalayın: Dil dağılımını içeren bir veri envanteri gerçekleştirin. %70 İngilizce, %20 Almanca ve %10 Fransızca veriye sahip bir çok uluslu, %95 İngilizce veriye sahip birinden farklı risk maruziyetine sahiptir.
Ulusal tanımlayıcı örnekleri ile test edin: Operasyonlarınızla ilgili ulusal tanımlayıcıların (Steuer-ID, NIR, PESEL, BSN, vb.) her birinden 10 örnek içeren bir test veri seti oluşturun ve tespit oranlarını doğrulayın. Bu, büyük ölçekli F1 değerlendirmesinden daha hızlı bir denetimdir.
DPIA'larınızı gözden geçirin: Anonimleştirme araçlarınızı kapsayan Veri Koruma Etki Değerlendirmeleriniz varsa, dil kapsamı analizinin dahil edildiğinden emin olun. Sadece İngilizce kapsamını varsayan eksik bir DPIA'nın güncellenmesi gerekebilir.
anonym.legal'in PII tespit motoru, 25 yüksek kaynaklı dil için dil-yerli spaCy modelleri, ek dil kapsamı için Stanza ve toplamda 48 dil kapsamı için XLM-RoBERTa çapraz dilli dönüşümcüler kullanarak üç aşamalı çok dilli bir yaklaşım benimsemektedir.
Kaynaklar:
- ACL 2024: Avrupa Yerelleri için Hibrit PII Tespiti
- Ölçeklenebilir Çok Dilli PII Notasyon Çerçevesi (arXiv 2025)
- HuggingFace XLM-RoBERTa Çapraz Dilli NER Karşılaştırmaları
- Microsoft Presidio GitHub Sorun #1071 — Alman Yanlış Pozitifler
- EDPB Madde 25 Gizlilik Tasarımı Üzerine Kılavuzlar
- CNIL 2024 Yıllık Raporu