ANSPDCP রোমানিয়া: CNP সনাক্তকরণ ও GDPR যাচাই
২০২৬ সালের জন্য আপডেট করা হয়েছে
রোমানিয়ার ডেটা সংস্থা হলো ANSPDCP। এর ২০২৪ মূল্যায়নে দেখা গেছে যে ৭৮% PII সরঞ্জাম Cod Numeric Personal (CNP) সনাক্ত করতে ব্যর্থ। বেশিরভাগ চেকসাম পদক্ষেপ এড়িয়ে যায়। এই ব্যবধান বাস্তব সম্মতির ঝুঁকি তৈরি করে। রোমানিয়া অনেক পশ্চিমা ক্লায়েন্টের জন্য EU ডেটা প্রক্রিয়া করে। এক্সপোজার বিস্তৃত।
রোমানিয়ার সবচেয়ে ডেটা-সমৃদ্ধ জাতীয় আইডি
CNP একটি ১৩-সংখ্যার জাতীয় শনাক্তকারী। প্রতিটি সংখ্যার দল ব্যক্তিগত ডেটা ধারণ করে:
- সংখ্যা ১: লিঙ্গ ও শতাব্দী কোড। পুরুষ ১৯০০–১৯৯৯ = ১। মহিলা ১৯০০–১৯৯৯ = ২। পুরুষ ২০০০+ = ৫। মহিলা ২০০০+ = ৬। পুরুষ বিদেশী বাসিন্দা = ৭। মহিলা বিদেশী বাসিন্দা = ৮। অন্যান্য বাসিন্দা = ৯।
- সংখ্যা ২–৩: জন্মসালের শেষ দুটি সংখ্যা।
- সংখ্যা ৪–৫: জন্ম মাস (০১–১২)।
- সংখ্যা ৬–৭: জন্মদিন (০১–৩১)।
- সংখ্যা ৮–৯: কাউন্টি কোড। ৪১টি কাউন্টি ও বুখারেস্টের ছয়টি সেক্টর কভার করে (কোড ০১–৫২)।
- সংখ্যা ১০–১২: সেই দিন ও কাউন্টিতে জন্মের ক্রম।
- সংখ্যা ১৩: চেক ডিজিট।
একা সংখ্যা ১ জৈবিক লিঙ্গ প্রকাশ করে। GDPR Article 9-এর অধীনে, এটি এই নম্বরটিকে বিশেষ-বিভাগের ডেটা আইটেম করে তোলে। সাধারণ ব্যক্তিগত ডেটার চেয়ে এটির শক্তিশালী সুরক্ষা প্রয়োজন।
চেক ডিজিট কীভাবে কাজ করে: প্রথম ১২টি সংখ্যা নিন। প্রতিটিকে তার ওজন দিয়ে গুণ করুন (২, ৭, ৯, ১, ৪, ৬, ৩, ৫, ৮, ২, ৭, ৯)। ফলাফল যোগ করুন। ১১ দিয়ে ভাগ করুন এবং ভাগশেষ নিন। ১০-এর ভাগশেষ মানে চেক ডিজিট ১। ১১-এর ভাগশেষ মানে কোডটি বৈধ নয়। অন্য যেকোনো ভাগশেষ হলো চেক ডিজিট।
এই পরীক্ষা এড়িয়ে যাওয়া সরঞ্জামগুলির দুটি ব্যর্থতা মোড আছে। প্রথমত, যেকোনো ১৩-সংখ্যার স্ট্রিং ম্যাচ হিসেবে চিহ্নিত হয় (মিথ্যা ইতিবাচক)। দ্বিতীয়ত, একটি দূষিত নম্বর প্যাটার্ন পরীক্ষায় উত্তীর্ণ হয় কিন্তু ভুল ডেটা ধারণ করে। সেই ডেটার পর্যালোচনা দরকার এবং মিস হয় (মিথ্যা নেতিবাচক)।
রোমানিয়ান-ভাষার নথিতে NER সমস্যা
শনাক্তকারী খোঁজা কাজের একটি অংশ মাত্র। রোমানিয়ান পাঠ আরও সনাক্তকরণ বাধা যোগ করে।
ডায়াক্রিটিক্স: রোমানিয়ান ș, ț, ă, â, এবং î ব্যবহার করে। অন্য ভাষায় প্রশিক্ষিত সরঞ্জামগুলি প্রায়ই এই অক্ষরযুক্ত নাম মিস করে। Latin-2 এনকোডিংয়ে পুরনো নথি আরও ব্যর্থতা যোগ করে।
ঠিকানার ফরম্যাট: রাস্তার ধরন সংক্ষিপ্ত রূপ ব্যবহার করে — Str., Bd., Al., Cal.। শহর ও কমিউন নামগুলি স্থানীয় নিয়ম অনুসরণ করে। ফরাসি বা জার্মান ঠিকানার জন্য তৈরি পার্সার এখানে খারাপ করে।
নামের রূপভেদ: রোমানিয়ানে ব্যাকরণগত কারক অনুযায়ী নামের রূপ পরিবর্তন হয়। একই ব্যক্তির নাম বাক্যের বিভিন্ন অংশে আলাদা দেখায়। NER মডেলগুলিকে একটি নথিতে নাম সংযুক্ত করতে এটি পরিচালনা করতে হবে।
অ-পশ্চিমা স্ক্রিপ্ট জুড়ে ভাষার ব্যবধান কীভাবে সনাক্তকরণ প্রভাবিত করে তার জন্য আমাদের APAC PII সনাক্তকরণ গাইড দেখুন।
ANSPDCP মামলাগুলি কীভাবে বিকাশ পায়
ANSPDCP মামলাগুলি তিনটি প্যাটার্ন দেখায়।
BPO লঙ্ঘনের মামলা: শেয়ার করা ফাইলগুলিতে কর্মচারী আইডি নম্বর এবং EU গ্রাহক ডেটা কোনো এনক্রিপশন ছাড়াই থাকে। দুর্বল লগের অর্থ সংস্থাটি বলতে পারে না কোন রেকর্ড অ্যাক্সেস করা হয়েছে। এটি তদন্ত প্রসারিত করে এবং জরিমানা বাড়ায়।
স্বাস্থ্যসেবা এক্সপোজার: রোগীর ফাইল — জাতীয় আইডি, স্বাস্থ্য কার্ড আইডি, এবং রোগনির্ণয় — ভুল ব্যক্তির কাছে পৌঁছায়। PII সরঞ্জামটিতে এই ফরম্যাটের কোনো সমর্থন ছিল না। ডেটা মাস্কিং ছাড়াই বেরিয়ে গেছে।
সীমানা-পারাপার ট্রান্সফার ব্যর্থতা: একটি আউটসোর্সিং সংস্থা শনাক্তকারী-সংযুক্ত রেকর্ড একটি অ-EEA পক্ষকে পাঠায়। কোনো Transfer Impact Assessment নেই। কোনো Standard Contractual Clauses নেই। ডেটার Article 9 অবস্থা একটি নিয়মিত ব্যবধানকে আরও গুরুতর লঙ্ঘনে পরিণত করে।
ANSPDCP সম্মতির জন্য তিনটি নিয়ন্ত্রণ
এই তিনটি ন্যূনতম প্রযুক্তিগত বেসলাইন গঠন করে:
- মডুলো-১১ যাচাইসহ CNP সনাক্তকরণ — প্যাটার্ন ম্যাচিং একা যথেষ্ট নয়।
- ডায়াক্রিটিক-সচেতন NER — UTF-8 এবং Latin-2 উভয় উৎসে ș, ț, ă, â, এবং î কভার করুন।
- আইডি কার্ড সনাক্তকরণ — জাতীয় কার্ড অনেক ধরনের নথিতে CNP-এর পাশে দেখা যায়।
জাতীয় আইডি কীভাবে GDPR ঝুঁকি তৈরি করে তার বিস্তৃত দৃষ্টিভঙ্গির জন্য, আমাদের EU জাতীয় ট্যাক্স আইডি সনাক্তকরণ গাইড দেখুন।