কেন Excel আপনার সর্বোচ্চ-ঝুঁকির ফাইল টাইপ
Excel ফাইলগুলো অধিকাংশ ব্যবসায় সবচেয়ে বড় GDPR ঝুঁকিগুলোর মধ্যে একটি। মেডিকেল রেকর্ডে প্রতিটি সারিতে বেশি সংবেদনশীল তথ্য থাকতে পারে। কিন্তু স্প্রেডশিটে PII দ্রুত জমে — এবং কমপ্লায়েন্স টিম প্রায়ই সেগুলো মিস করে।
তিনটি জিনিস Excel ফাইল পরিচালনা কঠিন করে তোলে।
পরিমাণ: একটি XLSX ফাইলে ৫০,০০০ সারি এবং ১০০ কলাম থাকতে পারে। এটি পাঁচ মিলিয়ন সেল। কোনো ম্যানুয়াল পর্যালোচনা সেগুলো সব পরীক্ষা করতে পারে না।
গ্রিড লেআউট: পাঠ্য একটি দিকে প্রবাহিত হয়। Excel ডেটা সারি ও কলামে ছড়িয়ে দেয়। ব্যক্তিগত তথ্য সেই গ্রিডের যেকোনো জায়গায় লুকিয়ে থাকতে পারে।
মিশ্র বিষয়বস্তু: বেতন ব্যান্ড, বিভাগ কোড এবং চাকরির গ্রেড SSN এবং ইমেইল ঠিকানার পাশে একই ফাইলে থাকে। সবকিছু মুছে দিলে ফাইলটি অকেজো হয়ে যায়।
দীর্ঘ ধারণ: কর্মীদের তালিকা এবং গ্রাহক রেকর্ড বছরের পর বছর Excel-এ থাকে। GDPR আর্টিকেল ৫(১)(ই) বলে তথ্য "প্রয়োজনের বেশি সময়" রাখা যাবে না। "কাজে লাগতে পারে" এমন ফাইলগুলো প্রায়ই সেই সময়সীমা অনেক পেরিয়ে থাকে।
কেন স্ট্যান্ডার্ড টেক্সট স্ক্যান স্প্রেডশিটে ব্যর্থ হয়
টেক্সট বিশ্লেষণ টুলগুলো নথির জন্য তৈরি। এগুলো কয়েকটি সাধারণ উপায়ে স্প্রেডশিটে ভেঙে পড়ে।
সংখ্যা-হিসেবে-SSN সমস্যা
Excel Social Security Number-কে ড্যাশ ছাড়া (১২৩৪৫৬৭৮৯) সাধারণ সংখ্যা হিসেবে সংরক্ষণ করে — পাঠ্য নয়। ###-##-#### খুঁজতে তৈরি একটি স্ক্যানার সেগুলো মিস করবে। একটি ভালো টুলকে জানতে হবে "SSN" নামের কলামে একটি ৯-সংখ্যার সংখ্যা Social Security Number।
সংখ্যা-হিসেবে-তারিখ সমস্যা
Excel তারিখ সিরিয়াল নম্বর হিসেবে সংরক্ষণ করে। ফেব্রুয়ারি ৬, ২০২৪ সংরক্ষিত হয় ৪৫৩২৯ হিসেবে। একটি CSV এক্সপোর্টে "Date of Birth" কলামে "৪৫৩২৯" দেখাবে। একটি স্ক্যানারকে সেই মানটি ফ্ল্যাগ করার আগে সংখ্যাটিকে আসল তারিখে রূপান্তর করতে হবে।
আংশিক SSN সমস্যা
কিছু সিস্টেম SSN-এর শেষ চার ডিজিট দেখায় (*--1234)। পূর্ণ সংখ্যাটি একটি লক করা কলামে থাকে। আংশিক মানটিও অ্যানোনিমাইজ করতে হবে — এমনকি যদি এটি একটি পূর্ণ SSN-এর মতো না দেখায়।
ফর্মুলা PII সমস্যা
কিছু সেল অন্য সেল থেকে PII তৈরি করে। =CONCATENATE(B2," ",C2) সহ একটি সেল পূর্ণ নাম দেখায়। B এবং C কলাম পরিষ্কার করলে সেই পূর্ণ নাম এখনও ফর্মুলা সেলে দৃশ্যমান। সংরক্ষিত মান পড়ে — ফর্মুলা লিঙ্ক নয় — এমন একটি টুল PII রেখে যাবে।
মাল্টি-শিট সমস্যা
একটি বড় ওয়ার্কবুকে পাঁচটি শিট থাকতে পারে: Customer List, Orders, Support Tickets, Billing এবং Analytics। গ্রাহকের নাম পাঁচটি শিটেই দেখা যায়। এক শিটে "John Smith" অবশ্যই অন্য প্রতিটি শিটে একই টোকেন — "PERSON_0047" — হতে হবে। দুটি ভিন্ন টোকেন রেকর্ড লিঙ্ক ভেঙে দেয়।
সংকেত হিসেবে কলাম হেডার
স্প্রেডশিট PII সনাক্তকরণে সেরা উন্নতি হলো কলাম হেডার বিশ্লেষণ।
"SSN" নামের একটি কলাম টুলকে বলে দেয় সেই কলামের সব মান Social Security Number। এটি কাজ করে এমনকি যদি মানগুলো আংশিক, অদ্ভুত ফরম্যাটে বা সংখ্যা হিসেবে সংরক্ষিত হয়।
| কলাম হেডার | কী সংকেত দেয় |
|---|---|
| SSN / Social Security / Tax ID | ৯-সংখ্যার সংখ্যা SSN হিসেবে গণ্য করুন |
| Email / E-mail / Email Address | আংশিক ইমেইল প্যাটার্নও ফ্ল্যাগ করুন |
| Phone / Telephone / Mobile / Cell | যেকোনো ফোন ফরম্যাট গ্রহণ করুন |
| DOB / Date of Birth / Birthday | সিরিয়াল নম্বর তারিখে রূপান্তর করুন |
| First Name / Last Name / Full Name | নাম সনাক্তকরণের মাত্রা কমান |
| Address / Street / City / ZIP | কাছাকাছি অবস্থান ফিল্ড একত্রিত করুন |
| Patient ID / MRN / Record Number | স্বাস্থ্যসেবা ID প্যাটার্ন প্রয়োগ করুন |
কলাম প্রেক্ষাপট কন্টেন্ট স্ক্যানিং প্রতিস্থাপন করে না। এটি যোগ করে। "SSN" নামের কলামে ১০০টি মান: কন্টেন্ট স্ক্যানিং ৯৯টি ভালো-ফরম্যাট করা মান ধরে। কলাম প্রেক্ষাপট সেটিও ধরে যেটি অদ্ভুত দেখায়।
কাঠামো রাখুন, নাম সরিয়ে দিন
অধিকাংশ Excel GDPR ক্ষেত্রে লক্ষ্য হলো ফাইলটি নষ্ট করা নয়। ব্যক্তিগত তথ্য সরিয়ে ফাইলটিকে কার্যকর রাখার অংশগুলো ধরে রাখা।
১৫,০০০-সারির কর্মী রেকর্ড ফাইলের জন্য একজন কমপ্লায়েন্স অফিসারের প্রয়োজন:
সরিয়ে দিন:
- কর্মীর নাম → PERSON_XXXX টোকেন
- SSN → REDACTED
- ইমেইল ঠিকানা → REDACTED
- ফোন নম্বর → REDACTED
- বাড়ির ঠিকানা → REDACTED
রাখুন:
- বিভাগ কোড
- চাকরির শিরোনাম (সাধারণ ভূমিকা মাত্র)
- বেতন ব্যান্ড (বিস্তৃত বিভাগ)
- পারফরম্যান্স স্কোর (গ্রুপ ডেটা)
- শুরুর তারিখ (মেয়াদ পরিসংখ্যানের জন্য)
- ম্যানেজার কোড (যদি সিউডোনিমাইজ করা হয়)
একটি টুল যেটি "মানুষকে চিহ্নিত করে এমন তথ্য" এবং "চাকরি বর্ণনা করে এমন তথ্য" এর পার্থক্য বোঝে সেটি আপনাকে একটি ফাইল দেয় যা HR বিশ্লেষণের জন্য কাজ করে — এবং GDPR ডেটা মিনিমাইজেশন নিয়ম পূরণ করে।
বাস্তব ঘটনা: M&A HR ডেটা স্থানান্তর
একটি অধিগ্রহণকারী কোম্পানি লক্ষ্য প্রতিষ্ঠান থেকে কর্মী রেকর্ড পায়: ৪০ কলাম সহ ১৫,০০০-সারির XLSX। ফাইলটি সুবিধা পরিকল্পনার জন্য একটি বাইরের HR ফার্মে যেতে হবে। GDPR বলে শুধুমাত্র সেই কাজের জন্য প্রয়োজনীয় তথ্যই শেয়ার করা যাবে।
প্রক্রিয়ার আগে: পূর্ণ নাম, SSN, ইমেইল, বাড়ির ঠিকানা, জরুরি যোগাযোগ এবং ব্যাংক বিবরণ সহ ৪০টি কলাম।
কলাম-প্রেক্ষাপট প্রক্রিয়ার পরে:
- ১২টি কলাম সরাসরি মানুষ সনাক্ত করে (নাম, SSN, ইমেইল, ফোন, ঠিকানা, ব্যাংক ডেটা): সামঞ্জস্যপূর্ণ টোকেন দিয়ে প্রতিস্থাপিত
- ৩টি কলাম পরোক্ষভাবে মানুষ সনাক্ত করে (কর্মী ID, ম্যানেজার কোড, চাকরি কোড): ফাইলের মধ্যে মিলে যায় এমন সিউডোনিমাস টোকেন দিয়ে প্রতিস্থাপিত
- ২৫টি কলাম সামষ্টিক তথ্য (বেতন ব্যান্ড, বিভাগ, মেয়াদ, গ্রেড): অপরিবর্তিত
সময়: ৬,০০,০০০ সেলের জন্য ৮ মিনিট
আউটপুট: একই XLSX লেআউট, ৪০ কলাম, ১৫টি অ্যানোনিমাইজ করা, ২৫টি অপরিবর্তিত
অডিট লগ: entity টাইপ, কনফিডেন্স স্কোর এবং ব্যবহৃত কলাম সংকেত সহ প্রতিটি পদক্ষেপের সেল-স্তরের রেকর্ড
HR ফার্ম তার কাজের জন্য সম্পূর্ণ ডেটাসেট পায় — কোনো নাম বা ID ছাড়া। কমপ্লায়েন্স রেকর্ড প্রমাণ পায় যে শুধুমাত্র সঠিক তথ্য শেয়ার করা হয়েছে।
এই চ্যালেঞ্জ শুধু Excel-এ নয়। প্রতিটি ফাইল ফরম্যাট তার নিজস্ব উপায়ে ব্যর্থ হয়। ফাইল টাইপ জুড়ে একটি দেখার জন্য ফরম্যাট বিভাজন কীভাবে PII সনাক্তকরণ প্রভাবিত করে দেখুন।
তিনটি GDPR আর্টিকেল ৫ নিয়ম, একটি প্রক্রিয়া
কাঠামোবদ্ধ স্প্রেডশিট অ্যানোনিমাইজেশন একসাথে তিনটি নিয়ম পূরণ করে।
ডেটা মিনিমাইজেশন (আর্ট. ৫(১)(সি)): কাজের জন্য প্রয়োজনীয় শুধুমাত্র কলামগুলো প্রাপকের কাছে যায়। সনাক্তকরণ কলাম মুছে দেওয়া হয়।
স্টোরেজ সীমাবদ্ধতা (আর্ট. ৫(১)(ই)): মূল ফাইল আইনি ধারণের জন্য থাকে। শেয়ারিংয়ের জন্য একটি পরিষ্কার কপি তৈরি হয় — কম বা কোনো ধারণ প্রয়োজন ছাড়াই।
সততা এবং গোপনীয়তা (আর্ট. ৫(১)(এফ)): কোনো সনাক্তকরণ ডেটা নিয়ন্ত্রণ এলাকার বাইরে যায় না। শুধুমাত্র পরিষ্কার কপি শেয়ার করা হয়।
প্রক্রিয়া থেকে অডিট লগ আপনার আর্টিকেল ৫(২) প্রমাণও। এটি দেখায় প্রতিটি ফাইলের জন্য প্রতিটি নিয়ম কীভাবে পূরণ করা হয়েছে।
আপনার টিম যদি DSAR বা বড় ডেটা এক্সপোর্ট সামলায়, একই যুক্তি API স্তরে প্রযোজ্য। রিয়েল-টাইম API-তে GDPR ডেটা মিনিমাইজেশন কীভাবে কাজ করে দেখুন।
ঘনিষ্ঠ সময়সীমায় উচ্চ ভলিউম সামলানো টিমগুলোর জন্য, এখানেও প্রযোজ্য ওয়ার্কফ্লো প্যাটার্নের জন্য স্কেলে GDPR DSAR ব্যাচ প্রসেসিং দেখুন।