NAIH হাঙ্গেরি: TAJ-Szám ও GDPR প্রযুক্তিগত প্রয়োজনীয়তা
২০২৬ সালের জন্য আপডেট করা হয়েছে
হাঙ্গেরির ডেটা কর্তৃপক্ষ হলো NAIH। এর ২০২৪ প্রতিবেদনে দেখা গেছে হাঙ্গেরিয়ানের জন্য NER নির্ভুলতা মাত্র ৬৭%। EU গড় ৮২%। এই ব্যবধান বাস্তব ঝুঁকি তৈরি করে। ইংরেজি বা জার্মানের জন্য তৈরি সরঞ্জামগুলি উচ্চ হারে হাঙ্গেরিয়ান শনাক্তকারী মিস করে।
কেন হাঙ্গেরিয়ান NER কম স্কোর করে
হাঙ্গেরিয়ানের তিনটি বৈশিষ্ট্য স্ট্যান্ডার্ড NLP মডেল ভেঙে দেয়।
আগ্লুটিনেশন: হাঙ্গেরিয়ান মূল শব্দে প্রত্যয় যোগ করে। একটি বাক্যে একই নাম অনেক রূপ নেয়। বিষয় অবস্থানে "Kovács Péter" অন্য ভূমিকায় "Kovács Péternek" হয়ে যায়। NER মডেলগুলিকে সেই সমস্ত রূপ একজন ব্যক্তির সাথে সংযুক্ত করতে হবে।
নামের ক্রম: হাঙ্গেরিয়ান পারিবারিক নাম প্রথমে রাখে। বেশিরভাগ NLP মডেল প্রদত্ত নাম প্রথমে আশা করে। সেই বিপরীতকরণ মিস সনাক্তকরণ ঘটায়।
বিশেষ অক্ষর: হাঙ্গেরিয়ান ő এবং ű ব্যবহার করে। এগুলো জার্মান umlauts-এর মতো নয়। Windows-1250 বনাম UTF-8-এর মিশ্র এনকোডিংও ব্যর্থতা ঘটায়।
এই তিনটি কারণ NAIH-এর ২০২৪ প্রতিবেদনে নির্ভুলতার ব্যবধানের বেশিরভাগ ব্যাখ্যা করে।
TAJ-Szám: হাঙ্গেরির সামাজিক নিরাপত্তা নম্বর
TAJ-szám (Társadalombiztosítási Azonosító Jel) একটি ৯-সংখ্যার নম্বর। এটি স্বাস্থ্যসেবা, বেতন, সামাজিক সুবিধা, এবং পেনশন রেকর্ডে দেখা যায়।
চেকসাম: সংখ্যা ১ থেকে ৮কে ওজন ৩, ৭, ৩, ৭, ৩, ৭, ৩, ৭ দিয়ে গুণ করুন। ফলাফল যোগ করুন। মডুলো ১০ নিন। এটি চেক ডিজিট দেয়।
এই অ্যালগরিদম হাঙ্গেরির জন্য অনন্য। এটি অন্য দেশে ব্যবহৃত Luhn অ্যালগরিদমের মতো নয়।
NAIH ২০২৪ প্রতিবেদন অনুযায়ী সাধারণ সরঞ্জামগুলি মাত্র ৬১% নির্ভুলতায় TAJ-szám সনাক্ত করে। ৯-সংখ্যার ফরম্যাট হাঙ্গেরিয়ান নথিতে অনেক অন্য নম্বরের মতো দেখায়। চেকসাম পদক্ষেপ ছাড়া, সরঞ্জামগুলি মিথ্যা ইতিবাচক চিহ্নিত করে এবং বাস্তবগুলি মিস করে।
Adóazonosító Jel: হাঙ্গেরির ট্যাক্স আইডি
Adóazonosító jel একটি ১০-সংখ্যার ব্যক্তিগত ট্যাক্স নম্বর। প্রথম সংখ্যা সর্বদা ৮। এটি কর্মসংস্থান রেকর্ড, ট্যাক্স ফাইলিং, এবং আর্থিক নথিতে দেখা যায়।
চেকসাম: সংখ্যা ২ থেকে ৯ নিন। ওজন ৯, ৭, ৩, ১, ৯, ৭, ৩, ১ দিয়ে গুণ করুন। ফলাফল যোগ করুন। মডুলো ১০ নিন। এটি চেক ডিজিট। ০ ফলাফল মানে চেক ডিজিট ০।
NAIH প্রয়োগ মামলাগুলি দেখায় যে এই নম্বর প্রায়ই HR নথিতে মিস হয় যখন সরঞ্জামগুলি অন্য ভাষার জন্য সেট আপ করা থাকে।
সদস্য রাষ্ট্র জুড়ে এই নম্বরগুলির তুলনার জন্য আমাদের EU জাতীয় ট্যাক্স আইডি গাইড দেখুন।
AI সিস্টেমের জন্য NAIH-এর DPIA প্রয়োজনীয়তা
NAIH-এর ২০২৪ নির্দেশিকা যেকোনো AI সিস্টেম ব্যক্তিগত ডেটা প্রক্রিয়া করার আগে একটি সম্পন্ন DPIA প্রয়োজন। এটি সাধারণ GDPR পরীক্ষার চেয়ে আরও কঠোর। DPIA অবশ্যই কভার করতে হবে:
- ডেটা প্রবাহ — প্রশিক্ষণ ডেটা, ইনপুট, এবং আউটপুট
- আইনি ভিত্তি — প্রতিটি কার্যকলাপের জন্য নথিভুক্ত
- ভাষার নির্ভুলতা — EU গড়ের নিচে ভাষার জন্য প্রয়োজন
- মানব পর্যালোচনা — স্বয়ংক্রিয় সিদ্ধান্ত পরীক্ষার একটি উপায়
সিস্টেম পুনরায় প্রশিক্ষিত হলে DPIA প্রতি বছর আপডেট করতে হবে।
হাঙ্গেরিয়ান ডেটায় AI সরঞ্জাম মোতায়েনকারী দলগুলির জন্য, ক্রম নির্ধারিত: আগে DPIA, তারপর মোতায়েন।
ন্যূনতম প্রযুক্তিগত নিয়ন্ত্রণ
তিনটি নিয়ন্ত্রণ NAIH সম্মতির ভিত্তি গঠন করে:
- মডুলো-১০ চেকসামসহ TAJ-szám সনাক্তকরণ — প্যাটার্ন ম্যাচিং একা যথেষ্ট নয়
- চেকসাম যাচাইসহ Adóazonosító jel সনাক্তকরণ — HR ও অর্থের জন্য গুরুত্বপূর্ণ
- আগ্লুটিনেশন সমর্থনসহ হাঙ্গেরিয়ান NER — ő, ű, এবং এনকোডিং ভেরিয়েন্ট পরিচালনা করতে হবে
কেন্দ্রীয় ইউরোপীয় DPA কীভাবে প্রযুক্তিগত প্রয়োজনীয়তা নির্ধারণ করে তার তুলনার জন্য আমাদের BFDI জার্মানি গাইড দেখুন। মধ্য ইউরোপে একটি অনুরূপ ভাষার ব্যবধানের জন্য, আমাদের চেক ÚOOÚ গাইড দেখুন।