ইংরেজি-শুধু PII টুল: GDPR-এর ফাঁক
GDPR-এর কোনো ভাষার পছন্দ নেই
GDPR যেকোনো ভাষায় ব্যক্তিগত ডেটা কভার করে। জার্মান, ফরাসি, পোলিশ, সুইডিশ — সবই সমানভাবে কভার করা হয়। একটি মিস হওয়া Steuer-ID একটি মিস হওয়া Social Security Number-এর মতো একই আইনি ঝুঁকি তৈরি করে। আইন ভাষার বিষয়ে চিন্তা করে না।
বেশিরভাগ PII সনাক্তকরণ টুল করে।
প্রধান বাণিজ্যিক এবং ওপেন-সোর্স টুলগুলো ইংরেজি টেক্সটের জন্য তৈরি হয়েছিল। তাদের এনটিটি ডিটেক্টর এটি প্রতিফলিত করে। তারা মার্কিন Social Security Number, মার্কিন ড্রাইভিং লাইসেন্স এবং NANP ফোন ফর্ম্যাট ভালোভাবে কভার করে। অ-ইংরেজি জাতীয় আইডির জন্য ডিটেক্টরগুলো কম নির্ভুল। সেগুলো কম রক্ষণাবেক্ষণ করা হয়। তারা আরও প্রায়ই বাস্তব আইডেন্টিফায়ার মিস করে।
EU সদস্য রাষ্ট্রগুলোর জুড়ে প্রতিষ্ঠানগুলোর জন্য, এটি একটি কভারেজ গ্যাপ তৈরি করে। টুলটি বলে সনাক্তকরণ সম্পূর্ণ। কিন্তু অ-ইংরেজি আইডেন্টিফায়ারগুলো ডেটায় থেকে যায়। এগুলো প্রায়ই নির্দিষ্ট দেশগুলোতে সর্বোচ্চ GDPR এক্সপোজার সহ আইডেন্টিফায়ার।
ডেটা কর্তৃপক্ষ এটি দেখে। অডিটররা এটি খোঁজে। একটি টুল ইংরেজি রেকর্ডে ভালোভাবে কাজ করতে পারে। কিন্তু যদি এটি জার্মান বা ফরাসি রেকর্ডে ব্যর্থ হয়, এটি সম্মত নয়। একটি পরিষ্কার রিপোর্ট সেটা পরিবর্তন করে না।
জাতীয় আইডিগুলো কাঠামোয় ভিন্ন
ইংরেজি-কেন্দ্রিক এবং বহুভাষিক টুলের মধ্যে ফাঁকটি আরও রেজেক্স প্যাটার্ন যোগ করার বিষয়ে নয়। EU জাতীয় আইডেন্টিফায়ারগুলো একে অপরের থেকে খুব আলাদা। সঠিকভাবে সনাক্ত করতে তাদের দেশ-নির্দিষ্ট যুক্তি দরকার।
জার্মান Steuer-Identifikationsnummer (Steuer-ID): ১১ সংখ্যা। এটি লুন ফর্মুলা ভেরিয়েন্টের উপর ভিত্তি করে একটি চেকসাম ব্যবহার করে। একটি জেনেরিক SSN রেজেক্স এটি মেলাবে না। যেকোনো ১১-সংখ্যার সংখ্যার জন্য একটি রেজেক্স জার্মান ডকুমেন্টে অনেক বেশি মিথ্যা পজিটিভ তৈরি করে।
ফরাসি NIR (Numéro d'inscription au répertoire): ১৫ সংখ্যা। ফর্ম্যাটটি লিঙ্গ, জন্ম বছর, জন্ম মাস এবং জন্ম বিভাগ এনকোড করে। এতে জন্ম ক্রম এবং একটি ২-সংখ্যার নিয়ন্ত্রণ কী অন্তর্ভুক্ত রয়েছে। সঠিক সনাক্তকরণের জন্য নিয়ন্ত্রণ কী যাচাই করতে হবে।
সুইডিশ Personnummer: লুন চেক ডিজিট সহ ১০ সংখ্যা। ১৯৯০ এর আগে জন্মগ্রহণকারীরা - এর পরিবর্তে + বিভাজক ব্যবহার করে। এটি সনাক্ত করতে হবে এমন ফর্ম্যাট পরিবর্তন করে।
পোলিশ PESEL: ১১ সংখ্যা। এটি জন্ম তারিখ, লিঙ্গ এবং ওজনযুক্ত যোগফলের উপর ভিত্তি করে একটি চেক ডিজিট এনকোড করে। সঠিক সনাক্তকরণের জন্য ফর্ম্যাট মিলানো এবং চেকসাম যাচাই উভয়ই দরকার।
এগুলো একটি সাধারণ প্যাটার্নের ভেরিয়েন্ট নয়। প্রতিটির আলাদা দৈর্ঘ্য। প্রতিটি একটি আলাদা চেক পদ্ধতি ব্যবহার করে। প্রতিটি একটি আলাদা অবস্থান স্কিমে ডেটা এনকোড করে। একটি ইংরেজি-প্রশিক্ষিত NER মডেল একটি ফরাসি NIR দেখে এটিকে একটি জাতীয় আইডেন্টিফায়ার হিসেবে চিনবে না। এটি উপেক্ষা করবে বা ভুলভাবে শ্রেণীবদ্ধ করবে।
ব্যবহারিক সম্মতির ঝুঁকি
জার্মানি, ফ্রান্স, পোল্যান্ড এবং নেদারল্যান্ডস থেকে একযোগে ডেটা প্রক্রিয়াকারী একটি ইউরোপীয় BPO-এর সম্মতি কর্মকর্তার কথা বিবেচনা করুন। তাদের টুল সফল PII অ্যানোনিমাইজেশন রিপোর্ট করে।
কিন্তু ফলাফলটি সম্পূর্ণ নয়। জার্মান রেকর্ডে Steuer-ID থেকে যায়। ফরাসি রেকর্ডে NIR নম্বর থেকে যায়। পোলিশ রেকর্ডে PESEL নম্বর থেকে যায়। এই ফর্ম্যাটগুলোর জন্য টুলের ডিটেক্টরগুলো অনুপস্থিত বা অনেক বেশি অনির্ভুল।
পরে, ডেটাসেটটি বিশ্লেষণ বা গবেষণা অংশীদারের কাছে যায়। ডেটা এখনও পুনরায় সনাক্তযোগ্য জাতীয় আইডেন্টিফায়ার ধারণ করে। GDPR সমস্যা টুলের আউটপুট লগে প্রদর্শিত হয় না। এটি তখন দেখা দেয় যখন একটি ডেটা সাবজেক্ট অ্যাক্সেস রিকোয়েস্ট আসে। এটি ডেটা কর্তৃপক্ষের অডিটের সময় প্রকাশ পেতে পারে। এটি ডেটা ব্রিচের পরেও প্রকাশ পেতে পারে।
ইংরেজি-কেন্দ্রিক টুলের বিপরীতে হাইব্রিড বহুভাষিক পদ্ধতির তুলনা করা গবেষণায় স্পষ্ট ফলাফল পাওয়া গেছে। হাইব্রিড পদ্ধতিগুলো ইউরোপীয় লোকেলে F1 স্কোর ০.৬০ থেকে ০.৮৩ অর্জন করে। ইংরেজি-শুধু টুলগুলো অ-ইংরেজি জাতীয় আইডি ফর্ম্যাটের জন্য শূন্যের কাছাকাছি স্কোর করে।
এই গ্যাপগুলো GDPR বাধ্যবাধকতার সাথে কীভাবে মানচিত্র করে তার জন্য আমাদের GDPR সম্মতি ওভারভিউ দেখুন।
পূর্ণ কভারেজের জন্য কী দরকার
EU GDPR সম্মতির জন্য সত্যিকারের বহুভাষিক PII সনাক্তকরণে তিনটি স্তর দরকার।
ভাষা-নেটিভ spaCy মডেল টেক্সটের ভাষায় সিমান্টিক বোঝাপড়া প্রদান করে। জার্মান টেক্সটে প্রশিক্ষিত একটি মডেল জানে যে "Müller" একটি সাধারণ জার্মান পদবি। ২৫টি উচ্চ-সম্পদ EU ভাষার জন্য মডেল বিদ্যমান।
Stanza NLP মডেল spaCy-তে নেই এমন ভাষায় কভারেজ বাড়ায়। এটি আরও EU ভাষা সম্প্রদায়ের জন্য নাগাল যোগ করে।
ক্রস-লিঙ্গুয়াল ট্রান্সফর্মার মডেল (XLM-RoBERTa) ক্রস-ভাষা ক্ষেত্রে পরিচালনা করে। একটি ফরাসি বাক্যে একটি নাম একটি ব্যক্তি নাম হিসেবে চিহ্নিত হয়। এটি কাজ করে এমনকি যদি ইঞ্জিনটি সেই নির্দিষ্ট নামে প্রশিক্ষিত না হয়।
দেশ-নির্দিষ্ট যাচাইকরণ সহ রেজেক্স কাঠামোগত জাতীয় আইডেন্টিফায়ার কভার করে। Steuer-ID, NIR, PESEL এবং Personnummer প্রত্যেকের নিজস্ব চেকসাম যুক্তি দরকার। এটি মিথ্যা পজিটিভ কমায়। দেশীয় যাচাইকরণ নিয়ম ব্যর্থ হওয়া সংখ্যার সিকোয়েন্সগুলো ফিল্টার করা হয়।
ফাঁকটি কাঠামোগত। শব্দ তালিকা বা আরও রেজেক্স প্যাটার্ন যোগ করা শুধুমাত্র ছোটখাটো উন্নতি দেয়। শুরু থেকেই EU আইডেন্টিফায়ার কভারেজ তৈরি করা একমাত্র নির্ভরযোগ্য পদ্ধতি।
আপনার বর্তমান টুল পরীক্ষা করুন
জার্মান, ফরাসি, পোলিশ এবং ডাচ রেকর্ডে F1 স্কোরের জন্য আপনার ভেন্ডরকে জিজ্ঞাসা করুন। "একাধিক ভাষা সমর্থন করে" প্রায়ই মানে টুল প্রথমে অনুবাদ ব্যবহার করে। এটি নেটিভ স্ক্যানিং নয়। GDPR সম্মতির জন্য নেটিভ স্ক্যানিং প্রয়োজন।
বাস্তব জাতীয় আইডি নমুনা দিয়ে পরীক্ষা করুন। আপনার কার্যক্রমে প্রতিটি আইডি ধরনের ১০টি উদাহরণ নিয়ে একটি ছোট পরীক্ষা সেট তৈরি করুন। Steuer-ID, NIR, PESEL, Personnummer। সনাক্তকরণের হার পরীক্ষা করুন। এটি একটি সম্পূর্ণ F1 পরীক্ষার চেয়ে দ্রুত এবং দ্রুত গ্যাপ দেখায়।
anonym.legal এই প্রয়োজনীয়তাগুলো কীভাবে সম্বোধন করে তার জন্য আমাদের নিরাপত্তা ও সম্মতি পেজ দেখুন। এনটিটি টাইপের সংজ্ঞার জন্য, এনটিটি রেফারেন্স পরিদর্শন করুন।