ব্লগে ফিরে যানGDPR এবং সম্মতি

NAIH হাঙ্গেরি: TAJ-Szám, Adóazonosító Jel...

হাঙ্গারিয়ান NER নির্ভুলতা 67% বনাম 82% EU গড় — NAIH-এর 2024 মূল্যায়ন। TAJ-szám weighted checksum এবং adóazonosító jel সনাক্তকরণ ফাঁক। NAIH...

April 21, 20267 মিনিট পড়া
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

হাঙ্গেরির Nemzeti Adatvédelmi és Információszabadság Hatóság (NAIH) একটি 2024 প্রযুক্তিগত মূল্যায়ন প্রকাশ করেছে হাঙ্গারিয়ান-ভাষী NER মডেল নির্ভুলতা শুধুমাত্র 67% পৌঁছায় — major ইউরোপীয় ভাষার জন্য 82% EU গড় বনাম। এই ফাঁক সরাসরি সম্মতি প্রভাব: সংস্থাগুলি হাঙ্গারিয়ান ব্যক্তিগত ডেটা প্রক্রিয়া করে German বা ইংরেজি NLP টুলস সহ systematically হাঙ্গারিয়ান-নির্দিষ্ট চিহ্নিতকারী এবং নাম সত্তা মিস।

67% NER নির্ভুলতা ফাঁক: এর অর্থ কী

হাঙ্গারিয়ান এবং major ইউরোপীয় ভাষা NER মডেলের মধ্যে নির্ভুলতা ফাঁক structural ভাষাগত কারণ আছে:

হাঙ্গারিয়ান morphology: হাঙ্গারিয়ান একটি agglutinative ভাষা — শব্দগুলি suffixes concatenate করে গঠিত grammatical সম্পর্ক প্রকাশ করতে যা ইংরেজি পৃথক শব্দ মাধ্যমে প্রকাশ করে। একটি হাঙ্গারিয়ান নাম একটি বাক্য অনুযায়ী grammatical বিভিন্ন ফর্ম লেয় এর ভূমিকা: "Kovács Péter" (nominative), "Kovács Péternek" (dative), "Kovács Pétertől" (ablative)। NER মডেল অবশ্যই dozens grammatical ফর্ম জুড়ে একই নাম স্বীকৃতি।

নাম ক্রম: হাঙ্গারিয়ান নাম Eastern ক্রমে লেখা হয় — পারিবারিক নাম প্রথম, given নাম দ্বিতীয় (Kovács Péter, না Péter Kovács)। এটি পশ্চিমী ইউরোপীয় নাম ক্রম বিপরীত — প্রথম নাম অনুমান যে NLP মডেল প্রশিক্ষিত ইংরেজি বা জার্মান নাম প্যাটার্ন systematically হাঙ্গারিয়ান নাম স্বীকৃতি ব্যর্থ।

হাঙ্গারিয়ান character সেট: হাঙ্গারিয়ান ő, ű (double-acute vowel) ব্যবহার করে ö, ü অতিরিক্ত...

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।