Excel आपका सबसे उच्च-जोखिम फ़ाइल प्रकार क्यों है
Excel फाइलें अधिकांश व्यवसायों में सबसे बड़े GDPR जोखिमों में से एक हैं। मेडिकल रिकॉर्ड प्रति पंक्ति अधिक संवेदनशील डेटा रख सकते हैं। लेकिन स्प्रेडशीट तेजी से PII जमा करती हैं — और अनुपालन टीमें अक्सर उन्हें चूक जाती हैं।
तीन चीजें Excel फाइलों को प्रबंधित करना कठिन बनाती हैं।
वॉल्यूम: एक XLSX फ़ाइल 50,000 पंक्तियाँ और 100 कॉलम रख सकती है — यानी पाँच मिलियन सेल। कोई भी मैन्युअल समीक्षा सभी को जाँच नहीं सकती।
ग्रिड लेआउट: टेक्स्ट एक दिशा में बहता है। Excel डेटा को पंक्तियों और कॉलम में फैलाता है। व्यक्तिगत डेटा उस ग्रिड में कहीं भी छिप सकता है।
मिश्रित सामग्री: वेतन बैंड, विभाग कोड और जॉब ग्रेड SSN और ईमेल पते के साथ एक ही फ़ाइल में बैठते हैं। सब कुछ मिटाना फ़ाइल को बेकार बना देता है।
लंबी अवधारण: कर्मचारी सूचियाँ और ग्राहक रिकॉर्ड वर्षों तक Excel में रहते हैं। GDPR अनुच्छेद 5(1)(e) कहता है कि डेटा "आवश्यकता से अधिक समय तक" नहीं रखा जाना चाहिए।
स्प्रेडशीट पर मानक टेक्स्ट स्कैन क्यों विफल होते हैं
टेक्स्ट विश्लेषण टूल दस्तावेज़ों के लिए बनाए गए थे। वे स्प्रेडशीट पर कुछ सामान्य तरीकों से टूट जाते हैं।
SSN-as-Number समस्या
Excel Social Security Numbers को बिना डैश के (123456789) सादे संख्याओं के रूप में सहेजता है — टेक्स्ट के रूप में नहीं। ###-##-#### खोजने के लिए बनाया गया स्कैनर उन्हें चूक जाएगा। एक अच्छे टूल को पता होना चाहिए कि "SSN" नाम के कॉलम में 9-अंकीय संख्या Social Security Number है।
Date-as-Number समस्या
Excel तारीखों को क्रम संख्याओं के रूप में संग्रहीत करता है। 6 फरवरी 2024 को 45329 के रूप में संग्रहीत किया जाता है। एक CSV एक्सपोर्ट "Date of Birth" कॉलम में "45329" दिखाएगा। स्कैनर को उस संख्या को वास्तविक तारीख में परिवर्तित करना होगा।
आंशिक SSN समस्या
कुछ सिस्टम केवल SSN के अंतिम चार अंक दिखाते हैं (*--1234)। पूरी संख्या एक बंद कॉलम में बैठती है। आंशिक मूल्य को भी अनामीकृत किया जाना चाहिए — भले ही यह पूर्ण SSN जैसा न दिखे।
Formula PII समस्या
कुछ सेल अन्य सेल से PII बनाते हैं। =CONCATENATE(B2," ",C2) वाला सेल पूरा नाम दिखाता है। यदि आप कॉलम B और C साफ करते हैं, तो वह पूरा नाम formula सेल में अभी भी दिखता है। केवल संग्रहीत मूल्यों को पढ़ने वाला टूल PII को जगह पर छोड़ देगा।
Multi-Sheet समस्या
एक बड़ी workbook में पाँच शीट हो सकती हैं: Customer List, Orders, Support Tickets, Billing और Analytics। ग्राहक नाम सभी पाँच में दिखाई देते हैं। एक शीट में "John Smith" को हर दूसरी शीट में एक ही टोकन — "PERSON_0047" — बनना चाहिए। दो अलग टोकन रिकॉर्ड लिंक तोड़ देते हैं।
संकेत के रूप में कॉलम हेडर
स्प्रेडशीट PII detection में सबसे अच्छा सुधार कॉलम हेडर विश्लेषण है।
"SSN" नाम का कॉलम टूल को बताता है कि उस कॉलम के सभी मूल्य Social Security Numbers हैं। यह तब भी काम करता है जब मूल्य आंशिक हों, अजीब ढंग से फ़ॉर्मेट हों, या संख्याओं के रूप में संग्रहीत हों।
| कॉलम हेडर | यह क्या संकेत देता है |
|---|---|
| SSN / Social Security / Tax ID | 9-अंकीय संख्याओं को SSN मानें |
| Email / E-mail / Email Address | आंशिक email पैटर्न भी flag करें |
| Phone / Telephone / Mobile / Cell | कोई भी phone फ़ॉर्मेट स्वीकार करें |
| DOB / Date of Birth / Birthday | क्रम संख्याओं को तारीखों में परिवर्तित करें |
| First Name / Last Name / Full Name | नाम detection की सीमा कम करें |
| Address / Street / City / ZIP | निकटवर्ती स्थान फ़ील्ड मिलाएँ |
| Patient ID / MRN / Record Number | healthcare ID पैटर्न लागू करें |
कॉलम संदर्भ सामग्री स्कैनिंग की जगह नहीं लेता। यह उसमें जोड़ता है।
संरचना रखें, नाम हटाएँ
अधिकांश Excel GDPR मामलों में लक्ष्य फ़ाइल को नष्ट करना नहीं है। यह व्यक्तिगत डेटा हटाना है जबकि फ़ाइल को उपयोगी रखने वाले हिस्सों को बनाए रखना है।
15,000-पंक्ति कर्मचारी रिकॉर्ड फ़ाइल के लिए, अनुपालन अधिकारी को चाहिए:
हटाएँ:
- कर्मचारी नाम → PERSON_XXXX टोकन
- SSN → REDACTED
- ईमेल पते → REDACTED
- फोन नंबर → REDACTED
- घर के पते → REDACTED
रखें:
- विभाग कोड
- जॉब टाइटल (केवल सामान्य भूमिकाएँ)
- वेतन बैंड (व्यापक श्रेणियाँ)
- प्रदर्शन स्कोर (समूह डेटा)
- प्रारंभ तारीखें (कार्यकाल आँकड़ों के लिए)
- मैनेजर कोड (यदि pseudonymized हो)
एक टूल जो "लोगों को नाम देने वाले डेटा" और "नौकरियों का वर्णन करने वाले डेटा" के बीच अंतर जानता है, वह HR विश्लेषण के लिए काम करने वाली फ़ाइल देता है — और GDPR डेटा न्यूनीकरण नियमों को पूरा करता है।
वास्तविक मामला: M&A HR डेटा ट्रांसफर
एक अधिग्रहण करने वाली कंपनी को लक्ष्य फर्म से कर्मचारी रिकॉर्ड मिलते हैं: 40 कॉलम के साथ 15,000-पंक्ति XLSX। फ़ाइल को लाभ योजना के लिए एक बाहरी HR फर्म को जानी होगी। GDPR कहता है कि केवल उस कार्य के लिए आवश्यक डेटा साझा किया जा सकता है।
प्रोसेसिंग से पहले: 40 कॉलम पूरे नाम, SSN, ईमेल, घर के पते, आपातकालीन संपर्क और बैंक विवरण के साथ।
कॉलम-संदर्भ प्रोसेसिंग के बाद:
- 12 कॉलम सीधे लोगों की पहचान करते हैं (नाम, SSN, ईमेल, फोन, पते, बैंक डेटा): सुसंगत टोकन से बदले
- 3 कॉलम अप्रत्यक्ष रूप से पहचान करते हैं (staff ID, manager code, job code): pseudonymous टोकन से बदले
- 25 कॉलम समग्र डेटा हैं (वेतन बैंड, विभाग, कार्यकाल, ग्रेड): अपरिवर्तित
समय: 600,000 सेल के लिए 8 मिनट
आउटपुट: वही XLSX लेआउट, 40 कॉलम, 15 अनामीकृत, 25 अपरिवर्तित
ऑडिट लॉग: entity प्रकार, विश्वास स्कोर और उपयोग किए गए कॉलम संकेत के साथ हर कार्रवाई का सेल-स्तरीय रिकॉर्ड
HR फर्म को अपने काम के लिए पूरा डेटासेट मिलता है — बिना किसी नाम या ID के। अनुपालन रिकॉर्ड को प्रमाण मिलता है कि केवल सही डेटा साझा किया गया।
यह चुनौती Excel के लिए अनूठी नहीं है। हर फ़ाइल फ़ॉर्मेट अपने तरीके से विफल होता है। फ़ाइल प्रकारों में PII detection को प्रभावित करने वाले फ़ॉर्मेट विखंडन के बारे में जानें।
तीन GDPR अनुच्छेद 5 नियम, एक प्रक्रिया
संरचित स्प्रेडशीट अनामीकरण एक साथ तीन नियमों को पूरा करता है।
डेटा न्यूनीकरण (अनु. 5(1)(c)): कार्य के लिए जरूरी केवल वही कॉलम प्राप्तकर्ता को जाते हैं। पहचान करने वाले कॉलम मिटा दिए जाते हैं।
स्टोरेज सीमा (अनु. 5(1)(e)): मूल फ़ाइल कानूनी अवधारण के लिए रहती है। साझा करने के लिए एक स्वच्छ प्रति बनाई जाती है।
अखंडता और गोपनीयता (अनु. 5(1)(f)): कोई पहचान डेटा नियंत्रण क्षेत्र से बाहर नहीं जाता।
प्रक्रिया से ऑडिट लॉग आपका अनुच्छेद 5(2) प्रमाण भी है।