Bloga DönGDPR & Uyumluluk

Neden PII Tespit Araçlarınız Sadece İngilizce...

Alman Steuer-ID (kontrol rakamı ile 11 haneli) yapısal olarak bir ABD SSN'den farklıdır. Fransız NIR numaraları 15 hanelidir.

March 20, 20268 dk okuma
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

GDPR'ın Bir Dil Tercihi Yoktur

Genel Veri Koruma Yönetmeliği, Almanca, Fransızca, Lehçe, İsveççe, İspanyolca, İtalyanca ve Yönetmelik'e tabi kuruluşlar tarafından işlenen diğer tüm dillerdeki kişisel verilere eşit şekilde uygulanır. Almanca müşteri verilerinde kaçırılan bir tanımlayıcı, İngilizce müşteri verilerinde kaçırılan bir tanımlayıcı ile aynı düzenleyici riski yaratır. GDPR dil ayırımı yapmaz.

Çoğu PII tespit aracı yapar.

Dominant ticari ve açık kaynak PII tespit araçları esasen İngilizce metinler üzerinde oluşturulmuş ve test edilmiştir. Varlık tanıyıcıları bunu yansıtır: ABD Sosyal Güvenlik Numaraları, ABD sürücü belgeleri, ABD pasaport formatları ve yaygın evrensel tanımlayıcılar (e-posta adresleri, NANP formatındaki telefon numaraları, kredi kartı numaraları). İngilizce olmayan ulusal tanımlayıcılar için tanıyıcılar — var olduklarında — genellikle daha az doğru, daha az bakımlı ve yanlış negatif üretme olasılığı daha yüksektir.

AB üye devletlerinde faaliyet gösteren işletmeler için bu, sistematik bir uyum açığı yaratır: araç, PII'nin tespit edildiğini ve kaldırıldığını bildirir, ancak belirli yargı alanlarında en büyük GDPR riskini temsil eden İngilizce olmayan tanımlayıcılar verilerde kalır.

Ulusal Tanımlayıcılar Arasındaki Yapısal Fark

İngilizce merkezli araçlar ile gerçekten çok dilli araçlar arasındaki fark, daha fazla regex deseni eklemek meselesi değildir. AB üye devletleri arasındaki ulusal tanımlayıcı formatları, doğru bir şekilde tespit etmek için yargı alanına özgü bilgi gerektiren yapısal olarak farklıdır.

Alman Steuer-Identifikationsnummer (Steuer-ID): Luhn formülü varyantına dayanan belirli bir kontrol rakamı algoritması ile 11 haneli vergi tanımlayıcısı. Genel bir SSN regex'i bu formatla eşleşmeyecektir. Herhangi bir 11 haneli sayıyı eşleştiren bir regex, Alman finansal belgelerinde devasa yanlış pozitif oranları üretecektir.

Fransız NIR (Numéro d'inscription au répertoire): Sahiplerinin cinsiyetini, doğum yılını, doğum ayını, doğum departmanı veya ülke kodunu, doğum sırası numarasını ve 2 haneli bir kontrol anahtarını içeren 15 haneli tanımlayıcı. Tespit, yapının anlaşılmasını ve kontrol anahtarının doğrulanmasını gerektirir.

İsveç Personnummer: Luhn kontrol rakamı ile 10 haneli tanımlayıcı (bazen 12 haneli hale getiren yüzyıl göstergesi ile). Format, yaşa bağlı olarak değişir: 1990'dan önce doğan bireyler, tespit edilmesi gereken formatı değiştiren - yerine + ayırıcı kullanır.

Polonya PESEL: Doğum tarihi, cinsiyet ve ağırlıklı toplam algoritmasına dayanan bir kontrol rakamı kodlayan 11 haneli tanımlayıcı. Doğru tespit, hem format eşleşmesi hem de kontrol rakamı doğrulamasını gerektirir.

Bunlar ortak bir desendeki format varyasyonları değildir. Farklı uzunluklara, farklı doğrulama algoritmalarına ve farklı konumsal kodlama şemalarına sahip yapısal olarak farklı tanımlayıcılardır. İngilizce eğitilmiş bir NER modeli, metinde bir Fransız NIR ile karşılaştığında bunu bir ulusal tanımlayıcı olarak tanımayacaktır — ya görmezden gelecektir ya da başka bir desene uyuyorsa yanlış sınıflandıracaktır.

Pratik Uyum Sonucu

Almanya, Fransa, Polonya ve Hollanda'dan müşteri hizmeti verilerini aynı anda işleyen bir Avrupa BPO'daki uyum görevlisi için pratik sonuç, İngilizce olmayan müşteri kayıtlarında sistematik bir tespit açığıdır.

Uyum görevlisinin aracı, başarılı PII anonimleştirmesini bildirir. Anonimleştirilmiş veriler hala Alman kayıtlarında Steuer-ID'leri, Fransız kayıtlarında NIR numaralarını ve Polonya kayıtlarında PESEL numaralarını içermektedir — çünkü bu formatlar için aracın tanıyıcıları ya yoktur ya da yeterince doğru değildir.

Anonimleştirilmiş veri seti daha sonra analiz, test veya bir araştırma ortağıyla paylaşım için kullanıldığında, "anonimleştirilmiş" veriler hala yeniden tanımlanabilir ulusal tanımlayıcı verileri içermektedir. GDPR ihlali, aracın çıktı günlüklerinde görünmez. Bir veri sahibi erişim talebi, bir denetim otoritesi denetimi veya bir veri ihlali, İngilizce olmayan tanımlayıcıların kaldırılmadığını ortaya çıkardığında görünür hale gelir.

Hibrit çok dilli PII tespit yaklaşımlarını tek dilli İngilizce merkezli araçlarla karşılaştıran araştırmalar, hibrit yaklaşımların Avrupa yerlerinde F1 puanları 0.60 ile 0.83 arasında başarı sağladığını bulmuştur — İngilizce olmayan tanımlayıcı formatlarına uygulanan İngilizce merkezli araçların performansı ise neredeyse sıfırdır.

Kapsamlı Kapsama Ne Gerektirir

AB GDPR uyumu için gerçek çok dilli PII tespiti, bir arada çalışan üç mimari katman gerektirir:

Dil yerel spaCy modelleri, metnin dilinde isimlerin, organizasyonların ve yerlerin anlamsal anlayışını sağlar. Almanca metin üzerinde eğitilmiş bir spaCy modeli, "Müller"in Almanca bağlamda yaygın bir soyad olduğunu anlar — sadece büyük harfle yazılmış bir kelime değildir. 25 yüksek kaynaklı AB dili için modeller mevcuttur.

Stanza NLP modelleri, spaCy tarafından aynı doğruluk seviyesinde kapsanmayan ek dillere kapsam sağlar.

Çapraz dil dönüştürücü modelleri (XLM-RoBERTa), saf desen eşleştirmenin ele alamayacağı çapraz dil belirsizliğini yönetir — bir Fransız cümlesinde geçen bir ismin, tespit motoru o isim üzerinde özel olarak eğitilmemiş olsa bile, bir kişi ismi olduğunu tanır.

Yargı alanına özgü doğrulama ile regex, yapılandırılmış ulusal tanımlayıcıları — Steuer-ID, NIR, PESEL, Personnummer — yanlış pozitifleri ortadan kaldıran kontrol rakamı doğrulaması ile kapsar.

Aracının şu anda İngilizce olmayan tanımlayıcıları kaçırdığı uyum görevlisi için: açık, yapılandırıcıdır, yapılandırma değil. Kelime listeleri eklemek veya regex kapsamını genişletmek marjinal bir iyileştirme sağlar. Çok dilli veriler için kapsamlı AB GDPR uyumu, tasarım gereksinimi olarak AB tanımlayıcı kapsama sahip bir araç gerektirir, sonradan düşünülmüş bir şey değil.

Kaynaklar:

Verilerinizi korumaya hazır mısınız?

48 dilde 285+ varlık türü ile PII anonimleştirmeye başlayın.