একটি টুল, ৪৫টি দেশ: ২৬০+ এন্টিটি
বৈশ্বিক প্ল্যাটফর্মগুলো একসাথে অনেক দেশের ব্যক্তিগত তথ্য প্রক্রিয়া করে। প্রতিটি দেশের নিজস্ব ID ফরম্যাট রয়েছে। প্রতিটি ফরম্যাটের নিজস্ব নিয়ম রয়েছে। একটি একক শনাক্তকরণ টুলকে সব কিছু পরিচালনা করতে হবে। বেশিরভাগ টুল তা পারে না।
শনাক্তকারী বিভাজনের সমস্যা
৪৫টি দেশে বিক্রেতাসহ একটি মার্কেটপ্লেস খুব আলাদা ধরনের অনবোর্ডিং ডকুমেন্ট পায়। একজন ব্রাজিলিয়ান বিক্রেতা CPF জমা দেন। এতে ১১টি ডিজিট রয়েছে। দুটি চেক ডিজিট। তারা একটি নির্দিষ্ট ওজন সূত্র ব্যবহার করে। একজন ভারতীয় বিক্রেতা PAN জমা দেন। এতে ১০টি অক্ষর রয়েছে। নির্দিষ্ট অবস্থানে অক্ষর ও সংখ্যা থাকে। একজন জার্মান বিক্রেতা Steuer-ID জমা দেন। এতে ১১টি ডিজিট এবং একটি Luhn চেকসাম রয়েছে। একজন ডাচ বিক্রেতা BSN জমা দেন। এতে ৯টি ডিজিট এবং mod-11 যাচাইকরণ ব্যবহার করা হয়।
প্রতিটি ফরম্যাটের দৈর্ঘ্য ও কাঠামো আলাদা। একটি ফরম্যাটের জন্য তৈরি একটি regex অন্যগুলোর সাথে মিলবে না। "১০–১২ ডিজিট" ধরনের একটি বিস্তৃত প্যাটার্ন অনেক বেশি কিছু ধরে ফেলে। এটি দাম, তারিখ এবং রেফারেন্স নম্বরে ফ্ল্যাগ করে। স্কেলে false positive দ্রুত বৃদ্ধি পায়।
৪০-শনাক্তকারীর ফাঁক
বেশিরভাগ এন্টারপ্রাইজ PII টুল প্রায় ৪০টি শনাক্তকারী টাইপ নিয়ে আসে। সাধারণগুলোর মধ্যে রয়েছে:
- US Social Security Number
- US পাসপোর্ট ফরম্যাট
- US ড্রাইভিং লাইসেন্স
- Luhn যাচাইকরণ সহ জেনেরিক ক্রেডিট কার্ড ফরম্যাট
- ইমেইল ঠিকানা
- NANP ফরম্যাটে ফোন নম্বর
- IP ঠিকানা
এগুলো উত্তর আমেরিকার কমপ্লায়েন্স ভালোভাবে কভার করে। কিন্তু এগুলো বৈশ্বিক কার্যক্রম কভার করে না।
আঞ্চলিকভাবে ফাঁকটি কেমন দেখায়
দক্ষিণ আমেরিকা: ব্রাজিলিয়ান CPF এবং CNPJ ব্রাজিলের ফিসকাল কর্তৃপক্ষের চেকসাম অ্যালগরিদম ব্যবহার করে। আর্জেন্টিনার CUIT ভিন্ন একটি ভারযুক্ত-সমষ্টি সূত্র ব্যবহার করে। কলম্বিয়ান NIT-এর নিজস্ব যাচাইকরণ পদ্ধতি রয়েছে। এদের কোনোটিই US প্যাটার্নের সাথে মেলে না।
এশিয়া: ভারতীয় PAN, Aadhaar, GSTIN, এবং ভোটার ID প্রতিটির আলাদা ফরম্যাট রয়েছে। জাপানিজ My Number-এ ১২টি ডিজিট রয়েছে। দক্ষিণ কোরিয়ান Resident Registration Number এবং চীনা জাতীয় ID প্রতিটির নিজস্ব recognizer প্রয়োজন।
EU সদস্য রাষ্ট্র: পূর্ণ EU কভারেজের জন্য সমস্ত ২৭টি সদস্য রাষ্ট্রের IBAN ফরম্যাট প্রয়োজন। প্রতিটির দেশ-নির্দিষ্ট দৈর্ঘ্য ও ফরম্যাট রয়েছে। এর মধ্যে প্রতিটি জাতীয় ID ফরম্যাটও দরকার। এর মধ্যে রয়েছে German Steuer-ID, French NIR, Dutch BSN, Polish PESEL, এবং Swedish Personnummer। এছাড়াও রয়েছে Slovenian EMŠO, Croatian OIB, Bulgarian EGN, এবং Romanian CNP।
২৬০+ এন্টিটি টাইপ কী কভার করে
একটি ২৬০+ এন্টিটি লাইব্রেরি সমস্ত ২৭টি EU সদস্য রাষ্ট্রের জাতীয় ID কভার করে। এটি সমস্ত EU IBAN ফরম্যাট যাচাই করে। এটি দক্ষিণ আমেরিকান ID কভার করে: Brazil CPF এবং CNPJ, Argentina CUIT, Colombia NIT। এটি এশিয়ান ID কভার করে: India PAN, Aadhaar, GSTIN, Japan My Number, Korea RRN। এটি UK ID কভার করে: NI Number, NHS Number, NINO ভ্যারিয়েন্ট। এটি মেডিকেল ID কভার করে: US NPI, DEA নম্বর, হাসপাতাল MRN ফরম্যাট। এটি আর্থিক ID কভার করে: SWIFT কোড, BIC ফরম্যাট, অ্যাকাউন্ট নম্বর প্যাটার্ন।
কেন শনাক্তকরণ কভারেজ একটি কমপ্লায়েন্স প্রশ্ন
প্রতিটি ফ্রেমওয়ার্ক দাবি করে যে এর শনাক্তকারীগুলো খুঁজে পেতে ও সুরক্ষিত করতে হবে। GDPR EU বিক্রেতার ডেটা কভার করে। LGPD ব্রাজিলিয়ান বিক্রেতার ডেটা কভার করে। ভারতের DPDP আইন ভারতীয় বিক্রেতার ডেটা কভার করে।
"যথাযথ সুরক্ষা" মানে টুলটি শনাক্তকারী খুঁজে পেয়েছে। একটি হারানো Aadhaar কনফিগারেশন ব্যর্থতা নয়। এটি কভারেজ ব্যর্থতা। বৈশ্বিক প্ল্যাটফর্মের জন্য, সেই ফাঁকটি আংশিক কমপ্লায়েন্স এবং প্রকৃত সুরক্ষার মধ্যে পার্থক্য।
২৬০+ এন্টিটি কভারেজ সহ একক deployment এই সমস্ত এখতিয়ার পরিচালনা করে। কোনো আলাদা আঞ্চলিক টুল নেই। কোনো আলাদা প্রক্রিয়াকরণ পাইপলাইন নেই। ৪০-recognizer টুলের মিস করা ফরম্যাটের জন্য কোনো ম্যানুয়াল enrichment নেই।
কভারেজ GDPR বাধ্যবাধকতায় কীভাবে মানচিত্র করে তার বিবরণের জন্য, দেখুন GDPR compliance resources। অডিট ট্রেইল এবং আপডেট নীতির জন্য, দেখুন security and compliance details।