গ্রিস HDPA: AFM এবং AMKA সনাক্তকরণ
২০২৬ সালে আপডেট করা হয়েছে
গ্রিসের ডেটা সুরক্ষা কর্তৃপক্ষ (HDPA) ২০২৪ সালে ৮৯টি প্রয়োগ সিদ্ধান্ত জারি করেছে। এটি ২০২২ সালের ৩৪টি সিদ্ধান্তের তুলনায় ১৬২% বেশি। HDPA-র মামলার ৩৮% পর্যটন খাত সংক্রান্ত। সামুদ্রিক কার্যক্রমও বাড়তি ঝুঁকি তৈরি করে।
জাতীয় DPA প্রয়োগের প্রেক্ষাপটের জন্য GDPR সম্মতি গাইড দেখুন।
AFM: কর নিবন্ধন নম্বর
ΑΦΜ হলো ৯-সংখ্যার কর নম্বর। প্রতিটি নাগরিক, বাসিন্দা ও ব্যবসা প্রতিষ্ঠান এটি ধারণ করে।
চেকসাম: ১ম থেকে ৮ম সংখ্যাকে ২৫৬, ১২৮, ৬৪, ৩২, ১৬, ৮, ৪ এবং ২ ওজন দিয়ে গুণ করুন। গুণফলগুলো যোগ করুন। ১১ দিয়ে ভাগের ভাগশেষ নিন। ফলাফল ১০ হলে নম্বরটি বৈধ নয়। অন্যথায়, চেক ডিজিট হলো ফলাফলের মডুলো ১০।
FAFM চালান, চুক্তি ও সরকারি ফর্মে দেখা যায়। এটি দেশে ব্যক্তি ও ব্যবসা উভয়ের জন্যই প্রাথমিক পরিচয়পত্র।
সনাক্তকরণের ফাঁক: সাধারণ NLP টুলগুলো মাত্র ৫২% নির্ভুলতায় AFM খুঁজে পায় (HDPA 2024)। তিনটি কারণ এটি ব্যাখ্যা করে। প্রথমত: ৯-সংখ্যার ফরম্যাট অনেক রেফারেন্স নম্বর ও তারিখের অংশের মতো দেখায়। দ্বিতীয়ত: দুই-ধাপের মডুলো চেকসাম বেশিরভাগ সাধারণ টুলে অনুপস্থিত। তৃতীয়ত: নম্বরটি প্রায়ই কোনো লেবেল ছাড়াই ঠিকানা ব্লকের ভেতরে থাকে।
কাঠামোগত আইডি সম্পর্কে আরও জানতে entities রেফারেন্স দেখুন।
AMKA: সামাজিক বীমা নম্বর
ΑΜΚΑ হলো ১১-সংখ্যার নম্বর। ১ম থেকে ৬ষ্ঠ সংখ্যা DDMMYY ফরম্যাটে জন্মতারিখ এনকোড করে। ৭ম সংখ্যা লিঙ্গ এনকোড করে: পুরুষের জন্য বিজোড়, মহিলার জন্য জোড়। ৮ম থেকে ১১তম সংখ্যা ক্রমিক নম্বর ও চেক ডিজিট।
এই ডিজাইন সুইডেনের personnummer-এর মতো। উভয়ই একই GDPR সমস্যা তৈরি করে। নম্বরটি জৈবিক লিঙ্গ প্রকাশ করে যা একটি ডেটা পয়েন্ট।
AMKA স্বাস্থ্য রেকর্ড, সামাজিক নিরাপত্তা ফাইল ও বেতন নথিতে থাকে। প্রতিটি নাগরিক ও বাসিন্দার একটি আছে। এটি স্বাস্থ্যসেবা ও সুবিধার জন্য প্রধান নম্বর হিসেবে কাজ করে। এই ডেটা ধরনে GDPR কীভাবে প্রযোজ্য তা দেখুন নিরাপত্তা ও সম্মতি পাতায়।
গ্রীক লিপি সহায়তার ফাঁক
হেলেনিক পাঠ্য ল্যাটিন ভাষা থেকে ভিন্ন লিপি ব্যবহার করে। PII টুলগুলোর জন্য এটি মূল চ্যালেঞ্জ।
Unicode পরিসর: হেলেনিক অক্ষর U+0370–U+03FF এবং U+1F00–U+1FFF-এ অবস্থিত। শুধুমাত্র ASCII বা ল্যাটিন লিপির জন্য তৈরি টুলগুলো এই অক্ষর প্রক্রিয়া করতে পারবে না।
NER মডেল: spaCy-র el_core_news মডেল হেলেনিক NER পরিচালনা করে। কিন্তু এটির সুস্পষ্ট সেটআপ প্রয়োজন। বেশিরভাগ ডিফল্ট পাইপলাইন শুধুমাত্র ইংরেজি ব্যবহার করে। হেলেনিক-লিপির নথিতে তারা কোনো আউটপুট দেয় না।
মিশ্র-লিপির ফাইল: দেশের নথিতে প্রায়ই হেলেনিক ও ল্যাটিন লিপি একসাথে থাকে। ব্র্যান্ড নাম ও প্রযুক্তিগত শব্দ ল্যাটিনে আসে। মূল পাঠ্য হেলেনিকে থাকে। একটি পাইপলাইনকে উভয় পরিচালনা করতে হবে।
কেস ফর্ম: হেলেনিক বাক্যে নামের রূপ পরিবর্তন হয়। কর্তা কারকে Γεώργιος Παπαδόπουλος হয়, সম্বন্ধ কারকে Γεωργίου Παπαδόπουλου হয়। একটি টুলের উভয় ধরতে রূপতাত্ত্বিক বিশ্লেষণ প্রয়োজন।
বহুভাষিক PII সনাক্তকরণের প্রশ্নের জন্য FAQ দেখুন।
পর্যটন সম্মতির ঝুঁকি
HDPA মামলার ৩৮% পর্যটন থেকে। স্কেল ও মৌসুমিতা প্রধান ঝুঁকি তৈরি করে।
PMS ধারণ: হোটেল সিস্টেম পাসপোর্ট নম্বর, জন্মতারিখ ও যোগাযোগের তথ্য সংগ্রহ করে। HDPA দেখেছে অনেক সিস্টেম পাঁচ বা তার বেশি বছর এই তথ্য রাখে। বেশিরভাগের কোনো উদ্দেশ্য বিবৃতি ছিল না। বেশিরভাগের নিরাপত্তা নিয়ন্ত্রণ দুর্বল ছিল।
পেমেন্ট ডেটা: হোটেল স্থানীয় ও বিদেশি অতিথিদের কার্ড ডেটা প্রক্রিয়া করে। ফোলিওতে আংশিক কার্ড নম্বর থাকে। বুকিং সিস্টেমে পুরো কার্ডের বিবরণ থাকে। PCI DSS ও GDPR উভয়ই প্রযোজ্য।
মৌসুমি কর্মী: আতিথেয়তা কর্মীরা প্রায়ই ৪–৬ মাসের চুক্তিতে কাজ করেন। HDPA দেখেছে অনেক ক্ষেত্রে কর্মী চলে যাওয়ার পরেও অ্যাক্সেস মুছে ফেলা হয়নি। উচ্চ-টার্নওভার খাতে এই ফাঁক সাধারণ।
HDPA সম্মতির জন্য প্রযুক্তিগত চেকলিস্ট
হেলেনিক ভাষার নথি প্রক্রিয়ার জন্য এই ন্যূনতম স্ট্যাক ব্যবহার করুন। AFM সনাক্তকরণে দুই-ধাপের মডুলো চেকসাম যাচাইকরণ প্রয়োজন। AMKA সনাক্তকরণে জন্মতারিখ ও লিঙ্গ-সংখ্যা পার্সিং প্রয়োজন। spaCy el_core_news দিয়ে হেলেনিক-লিপি NER যোগ করুন। উভয় লিপিতে পাসপোর্ট ও জাতীয় আইডি সনাক্তকরণ অন্তর্ভুক্ত করুন।
পর্যটন অপারেটরদের জন্য দুটি সাংগঠনিক পদক্ষেপও প্রয়োজন। প্রথমত: PMS ডেটা ধারণ সময়কাল নথিভুক্ত করুন। দ্বিতীয়ত: মৌসুমি কর্মী চলে গেলে সিস্টেম অ্যাক্সেস সরিয়ে দিন। এই পদক্ষেপগুলো সবচেয়ে সাধারণ HDPA ফলাফল মোকাবেলা করে।
দস্তাবেজ-ভারী আতিথেয়তা কর্মপ্রবাহের জন্য উপযুক্ত API প্ল্যানের জন্য মূল্য নির্ধারণ দেখুন।
anonym.legal সম্পূর্ণ চেকসাম যাচাইকরণ সহ AFM এবং AMKA সনাক্ত করে। এটি spaCy el_core_news পাইপলাইনের মাধ্যমে হেলেনিক-লিপি NER সমর্থন করে।