Tek Dilli Araçları Aşan Belgeler
Bir İsviçreli ilaç şirketinin istihdam sözleşmesi tek bir dilde yazılmamıştır. İsviçre'nin dört resmi dili vardır. İsviçreli organizasyonlar tarafından üretilen belgeler, genellikle ana sözleşme metni için Almanca, belirli düzenleyici maddeler için Fransızca ve uluslararası standart belirleme bölümleri için İngilizceyi karıştırmaktadır — bazen tek bir paragraf içinde.
Bir Belçikalı şirketin yönetim kurulu tutanakları, uluslararası yatırımcılar için Fransızca resmi kararlar ve İngilizce özet bölümleri ile birlikte Hollandaca raporlar içermektedir. Çok uluslu bir şirketin veri işleme sözleşmesi, İngilizce teknik spesifikasyonlar, Almanca veri sahibi hakları maddeleri ve Fransızca DPA iletişim bilgileri içermektedir.
Bunlar olağan belgeler değildir. Çok dilli pazarlarda faaliyet gösteren çok uluslu organizasyonların standart çıktılarıdır. Ve tek dilli PII tespit araçları bunlar üzerinde sistematik olarak başarısız olmaktadır.
%45 Daha Yüksek Atlama Oranı
Karma dilli belgeler üzerinde tek dilli ve çok dilli NER yaklaşımlarını karşılaştıran araştırmalar, karma dilli belgelerin tek dilli NER araçlarında %45 daha yüksek PII atlama oranına neden olduğunu bulmuştur.
Açıklığın kaynağı mimaridir: Almanca metin üzerinde eğitilmiş bir tek dilli NER modeli, Almanca isim kalıplarını, Almanca organizasyon adı geleneklerini ve Almanca adres yapılarını öğrenir. O model, ağırlıklı olarak Almanca bir belgede Fransızca bir bölümle karşılaştığında, eğitim dağıtımının dışında çalışmaktadır. O bölümdeki Fransızca kişi isimleri, Fransızca adresler ve Fransızca organizasyon tanımlayıcıları, tespit doğruluğunun azalmasına maruz kalır — bu, modelin kötü eğitilmesinden değil, o bölüm için yanlış dilde eğitilmiş olmasından kaynaklanmaktadır.
Ek bulgu: AB işletmelerinin %72'si belgeleri aynı anda 3+ dilde işlemektedir (EDPB 2024), ve çok dilli İK belgeleri, tek dilli muadillerine göre sayfa başına %67 daha fazla PII içermektedir (Gartner 2024). Daha yüksek PII yoğunluğu ve daha yüksek atlama oranlarının birleşimi, çok dilli İK, hukuki ve ticari belgeleri işleyen organizasyonlarda uyum açığını artırmaktadır.
Dil Sınırlarının Tespit Başarısızlıklarını Nasıl Oluşturduğuna Dair
Başarısızlık tek tip değildir. Dil sınırlarında — bir bölümün bir dilden diğerine geçiş yaptığı yerlerde — PII özellikle savunmasızdır.
Bir istihdam sözleşmesi, "Der Arbeitnehmer (Çalışan: Jean-Pierre Dupont, 15 Mart 1985'te Lyon'da doğmuştur) stimmt zu..." gibi bir madde içerebilir — Almanca cümle yapısını Fransızca bir isim ve doğum tarihi ile karıştırmaktadır. Almanca bir NER modeli, Fransızca ismi Almanca kalıplı isimlerin beklendiği bir konumda karşılaştığında, onu doğru bir şekilde sınıflandırmada başarısız olabilir. Fransızca bir model, Almanca bağlam kelimelerini görür ve çevresindeki belge yapısını güvenilir bir şekilde tanımlayamaz.
Gartner 2024 gözlemi, çok dilli İK belgelerinin, tek dilli muadillerine göre sayfa başına %67 daha fazla PII içerdiğini belirtmektedir; bu da bu sınır tespit başarısızlığını özellikle önemli kılmaktadır: İK belgeleri, en yüksek PII yoğunluğuna sahip belge türleri arasında yer almakta ve çok dilli organizasyonlar tarafından karma dilli biçimde üretilmektedir.
Çapraz Dilli Dönüştürücü Çözümü
XLM-RoBERTa (Çapraz Dilli Dil Modeli - Roberta), bu probleme farklı bir mimari yaklaşımı temsil etmektedir. Her dil için ayrı bir model eğitmek yerine, XLM-RoBERTa, 100 dilden metin üzerinde aynı anda eğitilmektedir. Model, varlık tanıma görevlerinin diller arasında kalıplar paylaştığını öğrenir — bir kişi adı ile çevresindeki bağlam kelimleri arasındaki yapısal ilişkinin, belirli kelimeler farklı olsa bile Almanca, Fransızca ve İngilizce dillerinde benzer olduğunu öğrenir.
Karma dilli belgeler için, XLM-RoBERTa'nın çapraz dilli mimarisi, modelin belge sınırında dil modelleri arasında "geçiş" yapmasına gerek kalmadığı anlamına gelir. Metni sürekli bir dizi olarak işler, dil geçişine bakılmaksızın aynı varlık tanıma yeteneğini uygular.
Bu, tam bir çözüm değildir — Almanca, Fransızca ve diğer dil eğitim verileri üzerinde dil spesifik ince ayar, her dil için ek doğruluk sağlar. Ancak çapraz dilli temel, tek dilli modellerin tutarsız bir şekilde ele aldığı dil sınırları boyunca güvenilir tespit sağlar.
Belgeleri düzenli olarak dil sınırlarını aşan İsviçreli, Belçikalı ve diğer çok uluslu organizasyonlar için, tek dilli ve çapraz dilli NER arasındaki mimari ayrım doğrudan uyum sonuçlarına yansır: tek dilli araçlarda dil sınırlarında kaçırılan varlıklar, çapraz dilli mimariler tarafından tespit edilir.
Kaynaklar: