GDPR Uyumu için Çok Dilli KKB Tespiti
2026 için güncellendi
Gizli GDPR Açığı
GDPR'ın dil tercihi yoktur. Madde 4(1) "kişisel veri"yi hangi dilde göründüğünden bağımsız olarak tanımlar. Alman Steuer-ID, ABD Sosyal Güvenlik Numarası kadar korunmaktadır. Fransız NIR, Birleşik Krallık Ulusal Sigorta numarası kadar düzenlenmiştir.
KKB tespit araçlarının çoğu yalnızca İngilizce için tasarlandı.
ACL 2024 araştırması, hibrit NLP araçlarının Avrupa yerel ayarları için F1 skoru 0,60–0,83 arasında olduğunu buldu. İngilizce-tek araçlar, İngilizce dışı ulusal kimlik formatları için sıfıra yakın skor alıyor. Fark çarpıcı. Bir araç İngilizce KKB'nin %95'ini yakalayabilir. Ancak aynı dosyada Almanca, Fransızca, Lehçe veya Flemenkçe KKB'nin %40–60'ını kaçırır. Bu ciddi bir sorun. Şirketleri açık bırakır.
Bu gerçek bir GDPR açığıdır. Neredeyse her küresel firmayı İngilizce merkezli redaksiyon araçları kullanan şekilde etkiliyor. Daha fazlası için GDPR rehberimize bakın.
KKB Neden Yerel Ayara Özgüdür
KKB tespitinin iki bölümü var.
Birincisi desen tabanlı tarama. Bu, vergi numaraları ve telefon formatları gibi yapılandırılmış kimlikleri kapsar.
İkincisi NER tabanlı tarama. Bu, isimler ve adresler gibi bağlamsal varlıkları kapsar.
Her iki bölüm de yerel ayara bağlıdır.
Yapılandırılmış Kimlikler Ülkeye Göre Farklılık Gösterir
| Ülke | Vergi Kimliği | Format | Doğrulama |
|---|---|---|---|
| Almanya | Steuer-ID | 11 basamak | Modulo-11 |
| Fransa | NIR | 15 basamak + 2 basamaklı anahtar | INSEE |
| İsveç | Personnummer | 10 basamak | Luhn |
| Polonya | PESEL | 11 basamak | Modulo-10 |
| Hollanda | BSN | 9 basamak | Elfproef |
| İspanya | DNI/NIE | 8 basamak + harf | Modulo-23 |
| İtalya | Codice Fiscale | 16 karakter | Özel kontrol toplamı |
SSN'ler için İngilizce regex (NNN-NN-NNNN) bu formatların hiçbirine uymaz. Her birinin kendi regex'i gerekir. Her birinin ayrıca kendi kontrol toplamı mantığı gerekir.
NER Yerel Modeller Gerektirir
Almanca isimler İngilizce isimlerden farklıdır. "Hans-Dieter Müller" yerel bir Almanca modele açıktır. İngilizce eğitimli model bu tür isimleri çoğunlukla atlar.
Yanlış pozitifler de sorun yaratır. Microsoft Presidio sorun takipçisi, Almanca kelimelerin İngilizce KKB olarak yanlış sınıflandırıldığını gösteriyor. Almanca'da "sıfır" anlamına gelen "Null" kelimesi buna bir örnek. İngilizce eğitimli modellerde yanlış isim isabetlerini tetikliyor. Üretim kullanımında hata oranları gerçek varlık başına 3 yanlış pozitife kadar şişiyor (Alvaro ve ark., 2024).
Düzenleyici Risk
AB veri organları bu sorunun farkında. Birçok ulusal VKO rehberlik yayımladı.
Alman BfDI: GDPR Madde 5(1)(f) tüm kayıtlara uygulanır. Üçüncü taraf araçlarla işlenen İngilizce dışı verileri kapsar.
Fransız CNIL: 2024 CNIL Yıllık Raporu endişelerini dile getirdi. Fransız yerel ayarı KKB taraması olmadan Fransız kayıtlarını işleyen yapay zeka araçlarını işaretledi.
AB VKO'ları genel olarak: GDPR Madde 25 (Tasarım Aşamasında Gizlilik), gerçekte işlenen kayıtlara uygun güvenceler gerektirir. Bu, küresel dağıtımlarda İngilizce dışı KKB'yi kapsar.
Risk açıktır. Bir firma bir GDPR denetiminde İngilizce içerikte %95 KKB tespiti gösterebilir. Ancak aynı araçla Almanca, Fransızca ve Lehçe kayıtlar da işliyorsa açıklar ortaya çıkar. Denetçiler fark eder. Cezalar gelebilir. Bu konuyu nasıl ele aldığımıza dair güvenceler sayfamıza bakın.
Üç Katmanlı Tasarım
Araştırma ve üretim kullanımı, en iyi yaklaşım olarak üç katmanlı hibrit tasarım üzerinde hem fikir.
Katman 1: Yerel spaCy Modelleri
spaCy 25 yerel ayar için eğitilmiş modeller sunar. Bunlar arasında Almanca, Fransızca, İspanyolca, Portekizce, İtalyanca, Flemenkçe, Rusça, Çince, Japonca, Korece ve Lehçe yer alıyor. Her model yerel metinler üzerinde eğitilir. Her yerel ayarın sözdizimi ve varlık kalıplarını öğrenirler. Bu önemlidir. Yerel eğitim daha iyi geri çağırma ve daha az yanlış pozitif anlamına gelir.
Almanca için: de_core_news_lg bileşik isimleri ve Almanca isim kalıplarını işler.
Fransızca için: fr_core_news_lg Fransızca varlıkları, unvanları, yer adlarını ve kuruluşları işler.
Yerel modeller yüksek kaynaklı yerel ayarlarda isim taraması için çapraz dilli modelleri geride bırakır.
Katman 2: Daha Fazla Yerel Ayar İçin Stanza
Stanford'un Stanza kütüphanesi spaCy'de olmayan yerel ayarları kapsar. Bunlar arasında Hırvatça, Slovence ve Ukraynaca yer alıyor. Bu, spaCy'nin hizmet vermediği AB konuşmacı grupları için erişimi genişletir. Stanza ücretsiz ve açık kaynaklıdır. Yığının geri kalanıyla iyi entegre olur.
Katman 3: Geniş Erişim İçin XLM-RoBERTa
spaCy ve Stanza'nın NER modellerinin eksik olduğu yerel ayarlar için XLM-RoBERTa açığı kapatır. 100 yerel ayarın Common Crawl metni üzerinde eğitilir. KKB tespiti için %91,4 çapraz dilli F1 elde eder (HuggingFace 2024). Kod geçişini iyi işler. Bu temel bir özelliktir. Bir belge tek seferde birden fazla yerel ayardan metin içerdiğinde önem taşır.
Çok dilli hacimle API çağrılarının nasıl ölçeklendiğini öğrenmek için token sistemi belgelerimizi ziyaret edin.
Yerel Ayara Özgü Varlık Türleri
Modeller tek başına yeterli değildir. GDPR uyumu aynı zamanda ülkeye özgü kimlikler için varlık türü kapsamı gerektirir.
Ülkeye göre AB Ulusal Kimlikleri:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Telefon formatları: Her AB ülkesinin benzersiz önek yapısı var. +49, +33 ve +48'in her biri kendi doğrulama mantığını gerektiriyor.
Adres formatları: Posta kodları büyük ölçüde farklılık gösteriyor. Almanya PLZ 5 basamak kullanıyor. Fransız kodları 5 basamak kullanıyor (01–99 aralığı). İngiltere posta kodları alfanümerik. İspanya 5 basamak kullanıyor (01000–52999).
Gerçek Dünya Vakası: İsviçre İlaç Firması
Bir İsviçre firması iş sözleşmelerini işliyor. Her sözleşme Almanca, Fransızca ve İngilizce metin içeriyor. İsviçre'nin dört resmi dili var. Araçları yalnızca Almanca için yapılandırılmıştı. Fransızca bölümdeki tüm KKB'yi kaçırdı.
Cenevre merkezli bir çalışanın sözleşmesi Fransızca AVS numarası (13 basamak), İsviçre banka IBAN'ı ve Fransızca formatta isim içeriyordu. Yalnızca Almanca araç Fransızca formatlı ismi kaçırdı. Fransız AVS numarasını bulamadı. IBAN'ı yalnızca kısmen tespit etti.
Üç katmanlı yaklaşım belgenin tamamını işler. Her metin parçası için yerel ayarı tespit eder. Her parçaya doğru NER modelini uygular. Her ulusal kimliği doğru ülke mantığıyla doğrular.
Karışık Yerel Ayarlı Belgeler
En zor durum belge içi yerel ayar karışımıdır. Örnekler:
- Alman çalışan kayıtları (isimler, vergi kimlikleri) içeren bir Alman firmasının İngilizce sözleşmesi
- İngilizce gizlilik alıntısı içeren Fransızca GDPR onay formu
- Temsilcinin İngilizce yanıt verip müşterinin Arapça yazdığı sohbet
XLM-RoBERTa bunu doğal olarak işler. Açık yerel ayar bayraklarına ihtiyaç duymaz. Önceden bölme olmadan karışık yerel ayarlı metni işler. Bu zaman kazandırır. Ayrıca hatalı bölmelerden kaynaklanan hataları önler.
Üretim kullanımı için, cümle düzeyinde otomatik yerel ayar tespitini XLM-RoBERTa çıkarımıyla birleştirmek, karışık yerel ayarlı belgeler için güçlü işleme sağlar.
Pratik Adımlar
Aracınızın kapsamını denetleyin. Redaksiyon satıcınızdan belirli yerel ayarlarınız için F1 skorları isteyin. "20 dili destekler" ifadesi çoğunlukla aracın önce makine çevirisi kullandığı anlamına gelir. Bu yerel tarama değildir.
Kayıtlarınızı yerel ayarlara göre eşleyin. Yerel ayar dağılımını içeren bir kayıt envanteri yapın. %70 İngilizce, %20 Almanca ve %10 Fransızca ile çalışan küresel firma farklı riskler taşır. %95 İngilizce ile çalışan firma farklı bir konumdadır.
Ulusal kimlik örnekleriyle test edin. Operasyonlarınızdaki ulusal kimliklerden 10'ar örnek içeren bir test seti oluşturun — Steuer-ID, NIR, PESEL, BSN ve diğerleri. Tespit oranlarını doğrulayın. Bu, tam bir F1 testinden daha hızlı.
DPIA'larınızı gözden geçirin. Yerel ayar kapsamının dahil edilip edilmediğini kontrol edin. Yalnızca İngilizce kayıtları varsayan eksik bir DPIA güncelleme gerektirebilir. Şimdi harekete geçin. Bir denetimin açığı bulmasını beklemeyin.
Tam varlık türü tanımları için varlıklar referansına ve SSS'e bakın. Planlar ve API çağrı oranları için fiyatlandırmayı ziyaret edin.
anonym.legal'in KKB tespit motoru üç katmanlı çok dilli yaklaşım kullanır. Yerel spaCy modelleri aracılığıyla 25 yüksek kaynaklı yerel ayarı kapsar. Stanza ek yerel ayar erişimi ekler. XLM-RoBERTa çapraz dilli transformerlar kapsamı 48 yerel ayara genişletir. Tüm AB üye devletlerine yönelik ülkeye özgü varlık türleri dahildir.
Kaynaklar
- ACL 2024: Avrupa Yerel Ayarları İçin Hibrit KKB Tespiti
- Ölçeklenebilir Çok Dilli KKB Açıklama Çerçevesi (arXiv 2025)
- HuggingFace XLM-RoBERTa Çapraz Dilli NER Kıyaslamaları
- Microsoft Presidio GitHub Sorunu #1071 — Almanca Yanlış Pozitifler
- EDPB Madde 25 Tasarım Aşamasında Gizlilik Kılavuzları
- CNIL 2024 Yıllık Raporu