2026 के लिए अपडेट किया गया

हंगरी का डेटा प्राधिकरण NAIH है। उसकी 2024 रिपोर्ट में पाया गया कि हंगेरियन के लिए NER सटीकता केवल 67% है। EU औसत 82% है। वह अंतर वास्तविक जोखिम पैदा करता है। अंग्रेजी या जर्मन के लिए बने टूल उच्च दरों पर हंगेरियन पहचानकर्ताओं को चूक जाते हैं।

हंगेरियन NER स्कोर कम क्यों करता है

हंगेरियन की तीन विशेषताएं मानक NLP मॉडल को तोड़ती हैं।

संश्लेषण: हंगेरियन मूल शब्दों में प्रत्यय जोड़ता है। एक वाक्य में एक ही नाम कई रूप लेता है। "Kovács Péter" विषय स्थिति में दूसरी भूमिका में "Kovács Péternek" बन जाता है। NER मॉडल को उन सभी रूपों को एक व्यक्ति से जोड़ना होगा।

नाम क्रम: हंगेरियन पहले परिवार का नाम रखता है। अधिकांश NLP मॉडल पहले दिए गए नाम की उम्मीद करते हैं। वह उलटाव चूकी हुई पहचानों का कारण बनता है।

विशेष अक्षर: हंगेरियन ő और ű का उपयोग करता है। ये जर्मन उम्लाट के समान नहीं हैं। Windows-1250 बनाम UTF-8 एन्कोडिंग मिक्स भी विफलताओं का कारण बनता है।

ये तीन कारक NAIH की 2024 रिपोर्ट में अधिकांश सटीकता अंतराल की व्याख्या करते हैं।

TAJ-Szám: हंगरी की सामाजिक सुरक्षा संख्या

TAJ-szám (Társadalombiztosítási Azonosító Jel) एक 9-अंकीय संख्या है। यह हेल्थकेयर, पेरोल, सामाजिक लाभ और पेंशन रिकॉर्ड में दिखाई देती है।

चेकसम: अंकों 1 से 8 को भार 3, 7, 3, 7, 3, 7, 3, 7 से गुणा करें। परिणाम जोड़ें। मॉड्यूलो 10 लें। इससे चेक अंक मिलता है।

यह एल्गोरिदम हंगरी के लिए अद्वितीय है। यह अन्य देशों में उपयोग किए जाने वाले Luhn एल्गोरिदम के समान नहीं है।

NAIH 2024 रिपोर्ट के अनुसार, जेनेरिक टूल TAJ-szám को केवल 61% सटीकता से डिटेक्ट करते हैं। हंगेरियन दस्तावेजों में 9-अंकीय प्रारूप कई अन्य संख्याओं जैसा दिखता है। चेकसम चरण के बिना, टूल झूठे सकारात्मक फ्लैग करते हैं और वास्तविक को चूक जाते हैं।

Adóazonosító Jel: हंगरी का कर ID

Adóazonosító jel एक 10-अंकीय व्यक्तिगत कर संख्या है। पहला अंक हमेशा 8 होता है। यह रोजगार रिकॉर्ड, कर फाइलिंग और वित्तीय दस्तावेजों में दिखाई देती है।

चेकसम: अंकों 2 से 9 लें। भार 9, 7, 3, 1, 9, 7, 3, 1 से गुणा करें। परिणाम जोड़ें। मॉड्यूलो 10 लें। यह चेक अंक है। 0 के परिणाम का मतलब है चेक अंक 0 है।

NAIH प्रवर्तन मामले दिखाते हैं कि यह संख्या अक्सर HR दस्तावेजों में चूक जाती है जब टूल अन्य भाषाओं के लिए सेट अप होते हैं।

ये संख्याएं सदस्य राज्यों में कैसे तुलना करती हैं, इसके लिए हमारा EU राष्ट्रीय कर ID गाइड देखें।

AI सिस्टम के लिए NAIH की DPIA आवश्यकता

NAIH का 2024 मार्गदर्शन किसी भी AI सिस्टम द्वारा व्यक्तिगत डेटा प्रोसेस करने से पहले पूर्ण DPIA की आवश्यकता करता है। यह सामान्य GDPR परीक्षण की तुलना में अधिक सख्त है। DPIA को कवर करना होगा:

डेटा प्रवाह — प्रशिक्षण डेटा, इनपुट और आउटपुट
कानूनी आधार — प्रत्येक गतिविधि के लिए दस्तावेज़ीकृत
भाषा सटीकता — EU औसत से नीचे की भाषाओं के लिए आवश्यक
मानवीय समीक्षा — स्वचालित निर्णयों की जांच करने का एक तरीका

DPIA को हर साल अपडेट किया जाना चाहिए जब सिस्टम को पुनः प्रशिक्षित किया जाए।

हंगेरियन डेटा पर AI टूल तैनात करने वाली टीमों के लिए, क्रम निश्चित है: पहले DPIA, फिर तैनाती।

न्यूनतम तकनीकी नियंत्रण

तीन नियंत्रण NAIH अनुपालन के लिए आधार रेखा बनाते हैं:

मॉड्यूलो-10 चेकसम के साथ TAJ-szám डिटेक्शन — केवल पैटर्न मिलान पर्याप्त नहीं है
चेकसम सत्यापन के साथ Adóazonosító jel डिटेक्शन — HR और वित्त के लिए महत्वपूर्ण
संश्लेषण समर्थन के साथ हंगेरियन NER — ő, ű और एन्कोडिंग वेरिएंट को संभालना होगा

मध्य यूरोपीय DPA तकनीकी आवश्यकताएं कैसे निर्धारित करते हैं, इसकी तुलना के लिए हमारा BFDI जर्मनी गाइड देखें। मध्य यूरोप में इसी तरह के भाषा अंतराल के लिए हमारा चेक ÚOOÚ गाइड देखें।

स्रोत

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

NAIH हंगरी: TAJ-Szám और Adóazonosító Jel

हंगेरियन NER स्कोर कम क्यों करता है

TAJ-Szám: हंगरी की सामाजिक सुरक्षा संख्या

Adóazonosító Jel: हंगरी का कर ID

AI सिस्टम के लिए NAIH की DPIA आवश्यकता

न्यूनतम तकनीकी नियंत्रण

स्रोत

संबंधित लेख

Self-Hosted PII Compliance Audits में विफल होता है

Presidio 220+ GDPR संस्थाओं को चूक जाता है

कॉन्फ़िगरेशन ड्रिफ्ट: एक छिपा GDPR जोखिम

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

NAIH हंगरी: TAJ-Szám और Adóazonosító Jel

NAIH हंगरी: TAJ-Szám और GDPR तकनीकी आवश्यकताएं

हंगेरियन NER स्कोर कम क्यों करता है

TAJ-Szám: हंगरी की सामाजिक सुरक्षा संख्या

Adóazonosító Jel: हंगरी का कर ID

AI सिस्टम के लिए NAIH की DPIA आवश्यकता

न्यूनतम तकनीकी नियंत्रण

स्रोत

संबंधित लेख

Self-Hosted PII Compliance Audits में विफल होता है

Presidio 220+ GDPR संस्थाओं को चूक जाता है

कॉन्फ़िगरेशन ड्रिफ्ट: एक छिपा GDPR जोखिम

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow