ব্লগে ফিরে যানGDPR এবং সম্মতি

Excel এবং GDPR: ডেটা কাঠামো হারানো ছাড়াই শত শত PII...

Excel ব্যবসায়িক ক্রিয়াকলাপ মধ্যে সবচেয়ে PII-ঘন নথি প্রকার মধ্যে রয়েছে। স্ট্যান্ডার্ড পাঠ্য বিশ্লেষণ স্প্রেডশীটে কেন ব্যর্থ হয় এবং কলাম-প্রসঙ্গ...

April 21, 20268 মিনিট পড়া
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Excel আপনার সর্বোচ্চ-ঝুঁকি নথি প্রকার কেন

সমস্ত নথি প্রকার যা ব্যবসায়িক পরিবেশে PII জমা দেয়, স্প্রেডশীটগুলি GDPR সম্মতি দৃষ্টিভঙ্গি থেকে সবচেয়ে বিপজ্জনকগুলির মধ্যে একটি।

কারণ তারা সবচেয়ে সংবেদনশীল নয় কারণ চিকিৎসা রেকর্ড এবং আইনি নথি স্পষ্টতই ব্যক্তিগত ডেটা বিষয়ের জন্য উচ্চতর-ঝুঁকি। কিন্তু কারণ Excel স্প্রেডশীটের বৈশিষ্ট্য রয়েছে যা তাদের পদ্ধতিগতভাবে সম্মতি প্রক্রিয়া দ্বারা অপর্যাপ্ত হতে পরিণত করে:

ভলিউম এবং ছড়িয়ে: একটি একক XLSX ফাইল 50,000 সারি এবং 100 কলাম ধারণ করতে পারে। প্রতিটি কোষ একটি সম্ভাব্য PII অবস্থান। কোনও ম্যানুয়াল পর্যালোচনা প্রক্রিয়া এই ভলিউম নির্ভরযোগ্যভাবে স্কেল করে না।

কাঠামোগত বৈচিত্র্য: পাঠ্য নথির বিপরীতে (ক্রমিক) বা PDF (পৃষ্ঠা-ভিত্তিক), Excel দ্বি-মাত্রিক কাঠামো রয়েছে প্রসঙ্গ অনুভূমিকভাবে বিতরণ করা (কলাম হেডার) এবং উল্লম্বভাবে (সারি সম্পর্ক)। PII যেকোনো জায়গায় প্রদর্শিত হতে পারে।

ব্যবসায়িক-সমালোচনামূলক অ-PII ডেটা PII সঙ্গে মিশ্রিত: বেতন পরিসংখ্যান, কর্মক্ষমতা স্কোর, বিভাগ কোড এবং অন্যান্য বৈধ ব্যবসায়িক ডেটা SSN এবং ইমেল ঠিকানার মতো একই স্প্রেডশীট বিদ্যমান। অবিচেতন বেনামিকরণ যা অ-PII ডেটা ঝাপসা করে স্প্রেডশীট অকেজো করে তোলে।

দীর্ঘ ধারণ পর্যালোচনা ছাড়াই: গ্রাহক ডাটাবেস, কর্মচারী রেজিস্ট্রি এবং বিক্রেতা তালিকা Excel ফাইলে জমা দেয় এবং প্রায়ই বছর ধরে পর্যালোচনা ছাড়াই ধারণ করা হয় GDPR সম্মতি জন্য। GDPR এর সংরক্ষণ সীমাবদ্ধতা নীতি (আর্টিকেল 5(1)(e)) ডেটা সংরক্ষণ "প্রয়োজনীয় নয় বেশি" প্রয়োজন — কিন্তু স্প্রেডশীট যা "উপকারী হতে পারে" অনির্দেশ্যভাবে অব্যাহত থাকার প্রবণতা।

স্প্রেডশীট PII সনাক্তকরণ প্রযুক্তিগত চ্যালেঞ্জ

স্ট্যান্ডার্ড পাঠ্য বিশ্লেষণ পদ্ধতি স্প্রেডশীটে অনুমানযোগ্য উপায়ে ব্যর্থ:

The SSN-as-সংখ্যা সমস্যা

US সামাজিক নিরাপত্তা সংখ্যা Excel কোষে ড্যাশ ছাড়াই সংরক্ষিত (123456789) সংখ্যা হিসাবে সংরক্ষিত হয়, পাঠ্য নয়। পাঠ্য বিশ্লেষণ যা প্যাটার্ন "###-##-####" স্ক্যান করে এগুলি মিস করবে। ফর্ম্যাট-সচেতন সনাক্তকরণ অবশ্যই স্বীকার করতে হবে যে "SSN" লেবেলযুক্ত কলামে একটি 9-সংখ্যার সংখ্যা ড্যাশ ছাড়াই একটি সামাজিক নিরাপত্তা সংখ্যা।

The তারিখ-as-সংখ্যা সমস্যা

Excel তারিখ অভ্যন্তরীণভাবে সিরিয়াল সংখ্যা হিসাবে সংরক্ষণ করে (January 1, 1900 = 1; February 6, 2024 = 45329)। "02/06/2024" প্রদর্শন করা একটি কোষ অভ্যন্তরীণভাবে "45329" সংরক্ষিত হয়। Excel থেকে রপ্তানি করা CSV এর বিশ্লেষণ "জন্মের তারিখ" কলামে "45329" দেখতে পারে — একটি সংখ্যা, একটি তারিখ নয়। প্রসঙ্গ-সচেতন সনাক্তকরণ এই রূপান্তর পরিচালনা অবশ্যই।

The আংশিক SSN সমস্যা

কিছু সম্মতি কর্মপ্রবাহ SSN সঙ্গে শুধুমাত্র শেষ চার সংখ্যা দৃশ্যমান অপারেশনাল ব্যবহারের জন্য সংরক্ষণ (*--1234)। সম্পূর্ণ SSN অনুমোদিত ব্যবহারকারীদের জন্য একটি পৃথক লক করা কলামে সংরক্ষিত হয়। আংশিক মূল্য বেনামিকরণ প্রয়োজন এমনকি যদিও এটি সম্পূর্ণ SSN প্যাটার্ন ম্যাচ করে না।

The গণিত PII সমস্যা

কিছু কোষ সূত্র ধারণ করে যা অন্য কোষ থেকে PII মূল্য তৈরি করে। =CONCATENATE(B2," ",C2) একটি কোষ প্রথম এবং শেষ নাম কলাম থেকে একটি সম্পূর্ণ নাম তৈরি করতে পারে। প্রথম এবং শেষ নাম কলাম বেনামিকরণ (B এবং C) সঠিক; concatenation কোষও আপডেট অবশ্যই। সরঞ্জাম যে বিশ্লেষণ কোষ মূল্য সূত্র সংজ্ঞা বিবেচনা ছাড়াই স্প্রেডশীট উত্পাদন করতে পারে যেখানে PII উপস্থিত সূত্র আউটপুট এমনকি উৎস কোষ বেনামিকরণ পরে।

The মাল্টি-শীট সামঞ্জস্য সমস্যা

একটি বড় Excel workbook 5 শীট থাকতে পারে: "গ্রাহক তালিকা", "আদেশ", "সহায়তা টিকেট", "বিলিং", "বিশ্লেষণ"। গ্রাহক নাম সমস্ত পাঁচ শীট প্রদর্শিত। সামঞ্জস্যপূর্ণ বেনামিকরণ একই গ্রাহক প্রয়োজন সমস্ত শীট জুড়ে একই বেনামিকরণ টোকেন গ্রহণ — তাই "John Smith" গ্রাহক তালিকা এবং "John Smith" সমর্থন টিকেট উভয় "PERSON_0047" হয়ে যায় ধারাবাহিকভাবে, দুটি বিভিন্ন টোকেন নয় যা রেকর্ড সংযোগ ভাঙ্গে।

কলাম প্রসঙ্গ সনাক্তকরণ সংকেত হিসাবে

স্প্রেডশীট-নির্দিষ্ট PII সনাক্তকরণের সবচেয়ে উল্লেখযোগ্য উন্নতি কলাম হেডার প্রসঙ্গ বিশ্লেষণ।

নীতি: একটি কলাম লেবেলযুক্ত "SSN" বা "সামাজিক নিরাপত্তা সংখ্যা" সনাক্তকরণ ইঞ্জিন সংকেত দেয় যে সেই কলামে সমস্ত মূল্য সামাজিক নিরাপত্তা সংখ্যা হিসাবে চিকিত্সা করা হবে, এমনকি যদি স্বতন্ত্র মূল্য আংশিক, বিভিন্ন ফর্ম্যাট বা সংখ্যা হিসাবে সংরক্ষিত।

কলাম প্রসঙ্গ সংকেত যে সনাক্তকরণ নির্ভুলতা উন্নত:

কলাম হেডারসনাক্তকরণ সংকেত
SSN / সামাজিক নিরাপত্তা / ট্যাক্স আইডিSSN প্রসঙ্গ — 9-সংখ্যা সংখ্যা SSN হিসাবে চিকিত্সা
ইমেল / ই-মেল / ইমেল ঠিকানাইমেল প্রসঙ্গ — যাচাই করে এমনকি আংশিক প্যাটার্ন
ফোন / টেলিফোন / মোবাইল / সেলফোন প্রসঙ্গ — বিভিন্ন ফর্ম্যাটিং গ্রহণ করে
DOB / জন্মের তারিখ / জন্মদিনতারিখ প্রসঙ্গ — সংখ্যা সিরিয়াল তারিখ রূপান্তর
প্রথম নাম / শেষ নাম / সম্পূর্ণ নামনাম প্রসঙ্গ — NER সনাক্তকরণের জন্য থ্রেশহোল্ড হ্রাস করে
ঠিকানা / রাস্তা / শহর / ZIPঠিকানা প্রসঙ্গ — ভৌগোলিক ক্ষেত্র একত্রিত
রোগী আইডি / MRN / রেকর্ড সংখ্যাস্বাস্থ্যসেবা আইডি প্রসঙ্গ — সুবিধা-নির্দিষ্ট প্যাটার্ন

কলাম প্রসঙ্গ বিশ্লেষণ বিষয়বস্তু বিশ্লেষণ প্রতিস্থাপন করে না — এটি augment। "SSN" লেবেলযুক্ত কলাম 100 মূল্য বিষয়বস্তু বিশ্লেষণের মাধ্যমে 99 সুস্থ-ফর্ম্যাট করা SSN সনাক্ত করবে; কলাম প্রসঙ্গ 1 ভুল-ফর্ম্যাট বা আংশিক মূল্য সনাক্ত সাহায্য করে।

সংরক্ষণ প্রয়োজনীয়তা: বেনামিকরণ PII, রাখা কাঠামো

বেশিরভাগ Excel GDPR পরিস্থিতি জন্য সম্মতি উদ্দেশ্য স্প্রেডশীট ধ্বংস নয় — এটি অপসারণ ব্যক্তিগত শনাক্তকারী যখন কাঠামো সংরক্ষণ যা স্প্রেডশীট দরকারী।

একটি 15,000-সারি কর্মচারী রেকর্ড স্প্রেডশীটের জন্য, GDPR সম্মতি অফিসার প্রয়োজন:

বেনামিকরণ:

  • কর্মচারী নাম → PERSON_XXXX টোকেন
  • SSN → বেনামিকৃত
  • ইমেল ঠিকানা → বেনামিকৃত
  • ফোন নম্বর → বেনামিকৃত
  • বাড়ির ঠিকানা → বেনামিকৃত

রক্ষা করুন:

  • বিভাগ কোড (ব্যক্তিগত শনাক্তকারী নয়)
  • চাকরির শিরোনাম (সাধারণ ভূমিকা, নির্ভরযোগ্যভাবে পৃথক নয়)
  • বেতন ব্যান্ড (সংমিশ্রণ বিভাগ, কিছু বাস্তবায়নে নির্দিষ্ট পরিমাণ নয়)
  • কর্মক্ষমতা স্কোর (পরিসংখ্যান ডেটা)
  • শুরু তারিখ (ব্যক্তিগত শনাক্তকারী ছাড়াই মেয়াদ বিশ্লেষণের জন্য)
  • ম্যানেজার কোড (যদি ম্যানেজার ধারাবাহিকভাবে pseudonymized)

একটি সরঞ্জাম যে পার্থক্য সংরক্ষণ করে "জিনিস যা ব্যক্তিগত শনাক্ত করে" এবং "জিনিস যা কর্মসংস্থান প্যাটার্ন বর্ণনা" একটি স্প্রেডশীট উত্পাদন করে যা HR বিশ্লেষণ উদ্দেশ্যের জন্য দরকারী থাকে যখন ডেটা ন্যূনতমতা এবং pseudonymization প্রয়োজনীয়তা সন্তুষ্ট করে।

ব্যবহারের ক্ষেত্র: M&A HR ডেটা স্থানান্তর

একটি অধিগ্রহণকারী কোম্পানি অধিগৃহীত কোম্পানি থেকে কর্মচারী রেকর্ড পায়: একটি 15,000-সারি XLSX 40 কলাম সঙ্গে। ডেটা একটি বাহ্যিক HR পরামর্শদাতা সুবিধা একীকরণ পরিকল্পনার জন্য শেয়ার করা অবশ্যই। GDPR প্রয়োজন যে শুধুমাত্র সুবিধা পরিকল্পনার জন্য প্রয়োজনীয় ডেটা শেয়ার করা হয় — বেতন ব্যান্ড, বিভাগ কোড, মেয়াদ, চাকরি গ্রেড — শনাক্তকারী তথ্য নয়।

বেনামিকরণ আগে: 40 কলাম × 15,000 সারি, সম্পূর্ণ নাম, SSN, ইমেল ঠিকানা, বাড়ির ঠিকানা, জরুরি পরিচিতি এবং payroll জন্য ব্যাংক অ্যাকাউন্ট তথ্য সহ।

কলাম-প্রসঙ্গ সনাক্তকরণ সঙ্গে প্রক্রিয়া:

  • 12 কলাম চিহ্নিত করা হয় সরাসরি শনাক্তকারী (নাম, SSN, ইমেল, ফোন, ঠিকানা, ব্যাংক অ্যাকাউন্ট): কোষ-দ্বারা-কোষ প্রতিস্থাপন ধারাবাহিক টোকেন সঙ্গে
  • 3 কলাম চিহ্নিত করা হয় পরোক্ষ শনাক্তকারী (কর্মচারী আইডি, ম্যানেজার কোড, অনন্য চাকরি কোড): pseudonymous টোকেন সঙ্গে প্রতিস্থাপিত (ফাইল মধ্যে সামঞ্জস্যপূর্ণ, বাহ্যিক রেকর্ড cross-referenceable নয়)
  • 25 কলাম চিহ্নিত করা হয় অ-শনাক্তকারী পরিসংখ্যান ডেটা (বেতন ব্যান্ড, বিভাগ, মেয়াদ, গ্রেড): অক্ষত রক্ষা

প্রক্রিয়া সময়: 600,000 কোষের জন্য 8 মিনিট আউটপুট: আসল ফর্ম্যাটে XLSX, 40 কলাম অক্ষত, 15 কলাম বেনামিকৃত/pseudonymized, 25 কলাম অক্ষত অডিট রিপোর্ট: কোষ-স্তরের লগ সমস্ত 200,000+ বেনামিকরণ কর্ম সত্তা প্রকার, আত্মবিশ্বাস এবং কলাম প্রসঙ্গ সংকেত ব্যবহৃত সঙ্গে

HR পরামর্শদাতা জন্য: সুবিধা পরিকল্পনা শনাক্তকারী তথ্য সঙ্গে একটি সম্পূর্ণ ডেটাসেট। GDPR সম্মতি রেকর্ডের জন্য: একটি অডিট রিপোর্ট প্রদর্শন উদ্দেশ্য সীমাবদ্ধতা — শুধুমাত্র নির্দিষ্ট কাজের জন্য প্রয়োজনীয় ডেটা শেয়ার করা হয়েছিল।

GDPR আর্টিকেল 5 প্রয়োজনীয়তা কাঠামো বেনামিকরণ দ্বারা সন্তুষ্ট

স্প্রেডশীট-নির্দিষ্ট বেনামিকরণ তিন আর্টিকেল 5 নীতি একযোগে সন্তুষ্ট করে:

ডেটা ন্যূনতমতা (আর্ট। 5(1)(c)): শুধুমাত্র নির্দিষ্ট উদ্দেশ্যের জন্য প্রয়োজনীয় কলাম শেয়ার করা হয়; শনাক্তকারী কলাম বেনামিকৃত।

সংরক্ষণ সীমাবদ্ধতা (আর্ট। 5(1)(e)): মূল ফাইল ধারণ করা হয় (শনাক্তকারী ডেটা সঙ্গে) নিয়ন্ত্রক ধারণ সময়ের জন্য; বেনামিকৃত সংস্করণ স্বল্প বা কোনো ধারণ প্রয়োজন শেয়ারিং প্রসঙ্গের জন্য তৈরি।

অখণ্ডতা এবং গোপনীয়তা (আর্ট। 5(1)(f)): শনাক্তকারী ডেটা সমস্ত শেয়ারিং উদাহরণ থেকে সরানো; শুধুমাত্র বেনামিকৃত সংস্করণ নিয়ন্ত্রণ পরিবেশ ছেড়ে চলে যায়।

বেনামিকরণ প্রক্রিয়া থেকে অডিট ট্রেইল আর্টিকেল 5(2) জবাবদিহিতা ডকুমেন্টেশন প্রদান করে — প্রতিটি নীতি মেনে চলা প্রদর্শন করে প্রতিটি স্প্রেডশীট প্রক্রিয়া।

উৎসমূহ:

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।