NAIH हंगरी: TAJ-Szám और GDPR तकनीकी आवश्यकताएं
2026 के लिए अपडेट किया गया
हंगरी का डेटा प्राधिकरण NAIH है। उसकी 2024 रिपोर्ट में पाया गया कि हंगेरियन के लिए NER सटीकता केवल 67% है। EU औसत 82% है। वह अंतर वास्तविक जोखिम पैदा करता है। अंग्रेजी या जर्मन के लिए बने टूल उच्च दरों पर हंगेरियन पहचानकर्ताओं को चूक जाते हैं।
हंगेरियन NER स्कोर कम क्यों करता है
हंगेरियन की तीन विशेषताएं मानक NLP मॉडल को तोड़ती हैं।
संश्लेषण: हंगेरियन मूल शब्दों में प्रत्यय जोड़ता है। एक वाक्य में एक ही नाम कई रूप लेता है। "Kovács Péter" विषय स्थिति में दूसरी भूमिका में "Kovács Péternek" बन जाता है। NER मॉडल को उन सभी रूपों को एक व्यक्ति से जोड़ना होगा।
नाम क्रम: हंगेरियन पहले परिवार का नाम रखता है। अधिकांश NLP मॉडल पहले दिए गए नाम की उम्मीद करते हैं। वह उलटाव चूकी हुई पहचानों का कारण बनता है।
विशेष अक्षर: हंगेरियन ő और ű का उपयोग करता है। ये जर्मन उम्लाट के समान नहीं हैं। Windows-1250 बनाम UTF-8 एन्कोडिंग मिक्स भी विफलताओं का कारण बनता है।
ये तीन कारक NAIH की 2024 रिपोर्ट में अधिकांश सटीकता अंतराल की व्याख्या करते हैं।
TAJ-Szám: हंगरी की सामाजिक सुरक्षा संख्या
TAJ-szám (Társadalombiztosítási Azonosító Jel) एक 9-अंकीय संख्या है। यह हेल्थकेयर, पेरोल, सामाजिक लाभ और पेंशन रिकॉर्ड में दिखाई देती है।
चेकसम: अंकों 1 से 8 को भार 3, 7, 3, 7, 3, 7, 3, 7 से गुणा करें। परिणाम जोड़ें। मॉड्यूलो 10 लें। इससे चेक अंक मिलता है।
यह एल्गोरिदम हंगरी के लिए अद्वितीय है। यह अन्य देशों में उपयोग किए जाने वाले Luhn एल्गोरिदम के समान नहीं है।
NAIH 2024 रिपोर्ट के अनुसार, जेनेरिक टूल TAJ-szám को केवल 61% सटीकता से डिटेक्ट करते हैं। हंगेरियन दस्तावेजों में 9-अंकीय प्रारूप कई अन्य संख्याओं जैसा दिखता है। चेकसम चरण के बिना, टूल झूठे सकारात्मक फ्लैग करते हैं और वास्तविक को चूक जाते हैं।
Adóazonosító Jel: हंगरी का कर ID
Adóazonosító jel एक 10-अंकीय व्यक्तिगत कर संख्या है। पहला अंक हमेशा 8 होता है। यह रोजगार रिकॉर्ड, कर फाइलिंग और वित्तीय दस्तावेजों में दिखाई देती है।
चेकसम: अंकों 2 से 9 लें। भार 9, 7, 3, 1, 9, 7, 3, 1 से गुणा करें। परिणाम जोड़ें। मॉड्यूलो 10 लें। यह चेक अंक है। 0 के परिणाम का मतलब है चेक अंक 0 है।
NAIH प्रवर्तन मामले दिखाते हैं कि यह संख्या अक्सर HR दस्तावेजों में चूक जाती है जब टूल अन्य भाषाओं के लिए सेट अप होते हैं।
ये संख्याएं सदस्य राज्यों में कैसे तुलना करती हैं, इसके लिए हमारा EU राष्ट्रीय कर ID गाइड देखें।
AI सिस्टम के लिए NAIH की DPIA आवश्यकता
NAIH का 2024 मार्गदर्शन किसी भी AI सिस्टम द्वारा व्यक्तिगत डेटा प्रोसेस करने से पहले पूर्ण DPIA की आवश्यकता करता है। यह सामान्य GDPR परीक्षण की तुलना में अधिक सख्त है। DPIA को कवर करना होगा:
- डेटा प्रवाह — प्रशिक्षण डेटा, इनपुट और आउटपुट
- कानूनी आधार — प्रत्येक गतिविधि के लिए दस्तावेज़ीकृत
- भाषा सटीकता — EU औसत से नीचे की भाषाओं के लिए आवश्यक
- मानवीय समीक्षा — स्वचालित निर्णयों की जांच करने का एक तरीका
DPIA को हर साल अपडेट किया जाना चाहिए जब सिस्टम को पुनः प्रशिक्षित किया जाए।
हंगेरियन डेटा पर AI टूल तैनात करने वाली टीमों के लिए, क्रम निश्चित है: पहले DPIA, फिर तैनाती।
न्यूनतम तकनीकी नियंत्रण
तीन नियंत्रण NAIH अनुपालन के लिए आधार रेखा बनाते हैं:
- मॉड्यूलो-10 चेकसम के साथ TAJ-szám डिटेक्शन — केवल पैटर्न मिलान पर्याप्त नहीं है
- चेकसम सत्यापन के साथ Adóazonosító jel डिटेक्शन — HR और वित्त के लिए महत्वपूर्ण
- संश्लेषण समर्थन के साथ हंगेरियन NER — ő, ű और एन्कोडिंग वेरिएंट को संभालना होगा
मध्य यूरोपीय DPA तकनीकी आवश्यकताएं कैसे निर्धारित करते हैं, इसकी तुलना के लिए हमारा BFDI जर्मनी गाइड देखें। मध्य यूरोप में इसी तरह के भाषा अंतराल के लिए हमारा चेक ÚOOÚ गाइड देखें।