২০২৬ সালের জন্য আপডেট করা হয়েছে

হাঙ্গেরির ডেটা কর্তৃপক্ষ হলো NAIH। এর ২০২৪ প্রতিবেদনে দেখা গেছে হাঙ্গেরিয়ানের জন্য NER নির্ভুলতা মাত্র ৬৭%। EU গড় ৮২%। এই ব্যবধান বাস্তব ঝুঁকি তৈরি করে। ইংরেজি বা জার্মানের জন্য তৈরি সরঞ্জামগুলি উচ্চ হারে হাঙ্গেরিয়ান শনাক্তকারী মিস করে।

কেন হাঙ্গেরিয়ান NER কম স্কোর করে

হাঙ্গেরিয়ানের তিনটি বৈশিষ্ট্য স্ট্যান্ডার্ড NLP মডেল ভেঙে দেয়।

আগ্লুটিনেশন: হাঙ্গেরিয়ান মূল শব্দে প্রত্যয় যোগ করে। একটি বাক্যে একই নাম অনেক রূপ নেয়। বিষয় অবস্থানে "Kovács Péter" অন্য ভূমিকায় "Kovács Péternek" হয়ে যায়। NER মডেলগুলিকে সেই সমস্ত রূপ একজন ব্যক্তির সাথে সংযুক্ত করতে হবে।

নামের ক্রম: হাঙ্গেরিয়ান পারিবারিক নাম প্রথমে রাখে। বেশিরভাগ NLP মডেল প্রদত্ত নাম প্রথমে আশা করে। সেই বিপরীতকরণ মিস সনাক্তকরণ ঘটায়।

বিশেষ অক্ষর: হাঙ্গেরিয়ান ő এবং ű ব্যবহার করে। এগুলো জার্মান umlauts-এর মতো নয়। Windows-1250 বনাম UTF-8-এর মিশ্র এনকোডিংও ব্যর্থতা ঘটায়।

এই তিনটি কারণ NAIH-এর ২০২৪ প্রতিবেদনে নির্ভুলতার ব্যবধানের বেশিরভাগ ব্যাখ্যা করে।

TAJ-Szám: হাঙ্গেরির সামাজিক নিরাপত্তা নম্বর

TAJ-szám (Társadalombiztosítási Azonosító Jel) একটি ৯-সংখ্যার নম্বর। এটি স্বাস্থ্যসেবা, বেতন, সামাজিক সুবিধা, এবং পেনশন রেকর্ডে দেখা যায়।

চেকসাম: সংখ্যা ১ থেকে ৮কে ওজন ৩, ৭, ৩, ৭, ৩, ৭, ৩, ৭ দিয়ে গুণ করুন। ফলাফল যোগ করুন। মডুলো ১০ নিন। এটি চেক ডিজিট দেয়।

এই অ্যালগরিদম হাঙ্গেরির জন্য অনন্য। এটি অন্য দেশে ব্যবহৃত Luhn অ্যালগরিদমের মতো নয়।

NAIH ২০২৪ প্রতিবেদন অনুযায়ী সাধারণ সরঞ্জামগুলি মাত্র ৬১% নির্ভুলতায় TAJ-szám সনাক্ত করে। ৯-সংখ্যার ফরম্যাট হাঙ্গেরিয়ান নথিতে অনেক অন্য নম্বরের মতো দেখায়। চেকসাম পদক্ষেপ ছাড়া, সরঞ্জামগুলি মিথ্যা ইতিবাচক চিহ্নিত করে এবং বাস্তবগুলি মিস করে।

Adóazonosító Jel: হাঙ্গেরির ট্যাক্স আইডি

Adóazonosító jel একটি ১০-সংখ্যার ব্যক্তিগত ট্যাক্স নম্বর। প্রথম সংখ্যা সর্বদা ৮। এটি কর্মসংস্থান রেকর্ড, ট্যাক্স ফাইলিং, এবং আর্থিক নথিতে দেখা যায়।

চেকসাম: সংখ্যা ২ থেকে ৯ নিন। ওজন ৯, ৭, ৩, ১, ৯, ৭, ৩, ১ দিয়ে গুণ করুন। ফলাফল যোগ করুন। মডুলো ১০ নিন। এটি চেক ডিজিট। ০ ফলাফল মানে চেক ডিজিট ০।

NAIH প্রয়োগ মামলাগুলি দেখায় যে এই নম্বর প্রায়ই HR নথিতে মিস হয় যখন সরঞ্জামগুলি অন্য ভাষার জন্য সেট আপ করা থাকে।

সদস্য রাষ্ট্র জুড়ে এই নম্বরগুলির তুলনার জন্য আমাদের EU জাতীয় ট্যাক্স আইডি গাইড দেখুন।

AI সিস্টেমের জন্য NAIH-এর DPIA প্রয়োজনীয়তা

NAIH-এর ২০২৪ নির্দেশিকা যেকোনো AI সিস্টেম ব্যক্তিগত ডেটা প্রক্রিয়া করার আগে একটি সম্পন্ন DPIA প্রয়োজন। এটি সাধারণ GDPR পরীক্ষার চেয়ে আরও কঠোর। DPIA অবশ্যই কভার করতে হবে:

ডেটা প্রবাহ — প্রশিক্ষণ ডেটা, ইনপুট, এবং আউটপুট
আইনি ভিত্তি — প্রতিটি কার্যকলাপের জন্য নথিভুক্ত
ভাষার নির্ভুলতা — EU গড়ের নিচে ভাষার জন্য প্রয়োজন
মানব পর্যালোচনা — স্বয়ংক্রিয় সিদ্ধান্ত পরীক্ষার একটি উপায়

সিস্টেম পুনরায় প্রশিক্ষিত হলে DPIA প্রতি বছর আপডেট করতে হবে।

হাঙ্গেরিয়ান ডেটায় AI সরঞ্জাম মোতায়েনকারী দলগুলির জন্য, ক্রম নির্ধারিত: আগে DPIA, তারপর মোতায়েন।

ন্যূনতম প্রযুক্তিগত নিয়ন্ত্রণ

তিনটি নিয়ন্ত্রণ NAIH সম্মতির ভিত্তি গঠন করে:

মডুলো-১০ চেকসামসহ TAJ-szám সনাক্তকরণ — প্যাটার্ন ম্যাচিং একা যথেষ্ট নয়
চেকসাম যাচাইসহ Adóazonosító jel সনাক্তকরণ — HR ও অর্থের জন্য গুরুত্বপূর্ণ
আগ্লুটিনেশন সমর্থনসহ হাঙ্গেরিয়ান NER — ő, ű, এবং এনকোডিং ভেরিয়েন্ট পরিচালনা করতে হবে

কেন্দ্রীয় ইউরোপীয় DPA কীভাবে প্রযুক্তিগত প্রয়োজনীয়তা নির্ধারণ করে তার তুলনার জন্য আমাদের BFDI জার্মানি গাইড দেখুন। মধ্য ইউরোপে একটি অনুরূপ ভাষার ব্যবধানের জন্য, আমাদের চেক ÚOOÚ গাইড দেখুন।

উৎস

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

NAIH হাঙ্গেরি: TAJ-Szám ও Adóazonosító Jel

কেন হাঙ্গেরিয়ান NER কম স্কোর করে

TAJ-Szám: হাঙ্গেরির সামাজিক নিরাপত্তা নম্বর

Adóazonosító Jel: হাঙ্গেরির ট্যাক্স আইডি

AI সিস্টেমের জন্য NAIH-এর DPIA প্রয়োজনীয়তা

ন্যূনতম প্রযুক্তিগত নিয়ন্ত্রণ

উৎস

সম্পর্কিত নিবন্ধ

সেলফ-হোস্টেড PII কমপ্লায়েন্স অডিটে ব্যর্থ হয়

Presidio ২২০টিরও বেশি GDPR এন্টিটি মিস করে

কনফিগারেশন ড্রিফট: একটি লুকানো GDPR ঝুঁকি

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

NAIH হাঙ্গেরি: TAJ-Szám ও Adóazonosító Jel

NAIH হাঙ্গেরি: TAJ-Szám ও GDPR প্রযুক্তিগত প্রয়োজনীয়তা

কেন হাঙ্গেরিয়ান NER কম স্কোর করে

TAJ-Szám: হাঙ্গেরির সামাজিক নিরাপত্তা নম্বর

Adóazonosító Jel: হাঙ্গেরির ট্যাক্স আইডি

AI সিস্টেমের জন্য NAIH-এর DPIA প্রয়োজনীয়তা

ন্যূনতম প্রযুক্তিগত নিয়ন্ত্রণ

উৎস

সম্পর্কিত নিবন্ধ

সেলফ-হোস্টেড PII কমপ্লায়েন্স অডিটে ব্যর্থ হয়

Presidio ২২০টিরও বেশি GDPR এন্টিটি মিস করে

কনফিগারেশন ড্রিফট: একটি লুকানো GDPR ঝুঁকি

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow