Macaristan'ın Nemzeti Adatvédelmi és Információszabadság Hatóságı (NAIH), 2024 yılına ait bir teknik değerlendirme yayımlayarak Macarca NER model doğruluğunun yalnızca %67'ye ulaştığını ortaya koydu — bu, büyük Avrupa dilleri için AB ortalaması olan %82 ile karşılaştırıldığında. Bu boşluk, uyumu doğrudan etkiliyor: Macar kişisel verilerini Almanca veya İngilizce NLP araçlarıyla işleyen kuruluşlar, sistematik olarak Macar'a özgü tanımlayıcıları ve ad varlıklarını kaçırıyor.
%67 NER Doğruluğu Boşluğu: Ne Anlama Geliyor
Macar ve büyük Avrupa dili NER modelleri arasındaki doğruluk boşluğunun yapısal dilbilgisel nedenleri vardır:
Macar morfolojisi: Macarca, eklemeli bir dildir — kelimeler, İngilizce'nin ayrı kelimelerle ifade ettiği dilbilgisel ilişkileri ifade etmek için eklerin birleştirilmesiyle oluşturulur. Bir Macar adı bir cümlede rolüne bağlı olarak farklı dilbilgisel biçimler alır: "Kovács Péter" (nominatif), "Kovács Péternek" (dative), "Kovács Pétertől" (ablative). NER modellerinin aynı adı, onlarca dilbilgisel biçim arasında tanıması gerekir.
İsim sırası: Macar isimleri Doğu sırasına göre yazılır — soyadı önce, ad ikinci (Kovács Péter, değil Péter Kovács). Bu, Batı Avrupa isim sırasının tersidir. İngilizce veya Almanca isim kalıpları üzerinde eğitim almış NLP modelleri, adın önce geldiği sıralama varsayımıyla sistematik olarak Macar isimlerini tanımakta başarısız olur.
Macar karakter seti: Macar, ö, ü (çift keskin ünlüler) ile birlikte ő, ű kullanır. Bu karakterler, Almanca ünlü değişimlerinden farklıdır ve ayrı kodlama/tokenizasyon gerektirir. Kodlama tutarsızlıkları (Windows-1250 vs. UTF-8) olan belgeler, tespit hataları yaratır.
Sonuç: İngilizce veya Almanca NLP araçlarını kullanarak Macar İK kayıtlarını, tıbbi belgeleri veya müşteri sözleşmelerini işleyen kuruluşlar, Macar isimlerini İngilizce veya Almanca metinlere uygulanan aynı araçlara göre %33 daha yüksek oranlarla kaçırıyor.
TAJ-Szám: Macaristan'ın Sosyal Güvenlik Tanımlayıcısı
TAJ-szám (Társadalombiztosítási Azonosító Jel), tüm Macar vatandaşları ve sakinlerine atanan Macaristan'ın 9 haneli sosyal güvenlik kimlik numarasıdır. Aşağıdaki belgelerde yer alır:
- Sağlık kayıtları ve tıbbi belgeler
- İstihdam sözleşmeleri (maaş için zorunlu)
- Sosyal yardım kayıtları
- Emeklilik hesap kayıtları
Kontrol toplamı: TAJ-szám kontrol rakamı, ağırlıklı bir toplam kullanılarak hesaplanır: 1-8 hanelerini alternatif ağırlıklarla (3,7,3,7,3,7,3,7) çarpın, toplayın, 10'a bölümünden kalan alın. Sonuç kontrol rakamıdır. Bu algoritma Macar'a özgüdür — İsveç personnummer veya SIN için kullanılan Luhn algoritmasıyla aynı değildir.
TAJ-szám, genel NLP araçları tarafından yalnızca %61 doğrulukla tespit edilmektedir (NAIH 2024 değerlendirmesi). Temel başarısızlık: 9 haneli format, Macar belgelerindeki birçok referans numarasıyla eşleşir ve TAJ'ya özgü kontrol toplamı olmadan, araçlar TAJ numaralarını yanlış pozitiflerden ayırt edemez.
Adóazonosító Jel: Macaristan'ın Vergi Kimlik Numarası
Adóazonosító jel, 10 haneli bireysel vergi kimlik numarasıdır (şirket vergi numarası olan adószám ile karıştırılmamalıdır). Format: 8XXXXXXXX, burada ilk hane her zaman 8'dir (sabit), ardından kontrol rakamı ile birlikte 9 hane gelir.
Kontrol rakamı hesaplama: 2-9 hanelerini ağırlıklarla (9,7,3,1,9,7,3,1) çarpın, toplayın, 10'a bölümünden kalan alın. Eğer sonuç 0 ise, kontrol rakamı 0'dır. Aksi takdirde kontrol rakamı sonuçtur.
Adóazonosító jel, istihdam kayıtlarında, vergi beyannamelerinde, serbest çalışan sözleşmelerinde ve finansal hizmet belgelerinde yer alır. NAIH uygulamaları, bunu yabancı yapılandırılmış PII araçları tarafından işlenen İK belgelerinde sıkça kaçırıldığını bulmuştur.
NAIH'ın AI Sistemi DPIA Gereksinimi
NAIH'ın 2024 kılavuzu, kişisel verileri işleyen herhangi bir AI sisteminin dağıtımından önce tamamlanmış bir DPIA gerektirir — GDPR'nın risk temelli yaklaşımından daha belirleyicidir. DPIA şunları içermelidir:
- AI modelinin veri girdilerini (eğitim verisi, çıkarım girdileri) ve çıktıları tanımlayın
- Herhangi bir kişisel veri işleme için yasal dayanağı belgeleyin
- Macarca dil işleme doğruluğunu değerlendirin (NAIH, özellikle AB ortalaması olmayan diller için doğruluk belgeleri talep eder)
- Otomatik kararlar için bir insan inceleme mekanizması dahil edin
- AI sistemi yeniden eğitildiğinde yıllık olarak güncellenmelidir
Macar çalışan, müşteri veya vatandaş verilerini işleyen AI araçlarını dağıtan kuruluşlar için: NAIH'ın zorunlu DPIA'sı, Macar'a özgü modeller gerektiren %67 NER doğruluğu boşluğu ve TAJ-szám ile adóazonosító jel kontrol toplamı doğrulama gereksinimleri, belirgin bir teknik uyum profili oluşturur.
Kaynaklar: