वह खाई जिसे कॉलम हटाना चूक जाता है

2026 के लिए अपडेट किया गया

शोध डेटासेट CSV फाइलों के रूप में विश्वविद्यालयों के बीच चलते हैं। जब टीमें साझाकरण के लिए CSV तैयार करती हैं, तो काम कॉलम-आधारित होता है। व्यक्तिगत जानकारी खोजें। हटाएँ या बदलें।

यह तरीका निश्चित फ़ील्ड के लिए काम करता है। "email" नाम का कॉलम ईमेल पते रखता है — हटाएँ। "phone" नाम का कॉलम फोन नंबर रखता है — हटाएँ। "participant_name" नाम का कॉलम नाम रखता है — कोड से बदलें।

लेकिन फ्री-टेक्स्ट प्रतिक्रिया कॉलम एक अंधा स्थान हैं। लेबल वाले कॉलम हटाना उन्हें नहीं छूता।

5,000 पंक्तियों वाले सर्वेक्षण में पाँच संरचित PII कॉलम और पंद्रह खुले-टेक्स्ट प्रतिक्रिया कॉलम हो सकते हैं। संरचित वाले नाम, ईमेल, फोन नंबर, ID और जन्म वर्ष रखते हैं। खुले-टेक्स्ट वाले टिप्पणियाँ, नोट और सुझाव रखते हैं।

संरचित कॉलम साफ हो जाते हैं। खुले-टेक्स्ट कॉलम कच्चे रहते हैं। लेकिन लोग इस तरह की चीजें लिखते हैं:

पहला: "Boston Medical Center में मेरे डॉक्टर, Dr. Maria Santos, ने कहा कि उपचार नया था।" दूसरा: "मैं 2019 की अपनी दुर्घटना से इससे जूझ रहा हूँ।" तीसरा: "विवरण के लिए आप मेरे देखभालकर्ता को margaret.wells@gmail.com पर संपर्क कर सकते हैं।"

प्रत्येक प्रविष्टि एक वास्तविक व्यक्ति का नाम लेती है। कुछ में स्वास्थ्य तथ्य या संपर्क जानकारी शामिल है। यह किसी कॉलम हेडर में नहीं दिखाई देता। इसमें से कुछ भी कॉलम हटाने से नहीं पकड़ा जाता।

GDPR Recital 26 anonymous रिकॉर्ड को ऐसे रिकॉर्ड के रूप में परिभाषित करता है जिन्हें किसी व्यक्ति से नहीं जोड़ा जा सकता। मानदंड ऊँचा है। रिकॉर्ड केवल तभी वास्तव में anonymous होते हैं जब पुनः पहचान उचित रूप से संभव न हो।

स्वच्छ निश्चित कॉलम लेकिन खुले-टेक्स्ट में नामित लोगों वाला CSV उस परीक्षण में विफल होता है। वे नाम पहचाने जाने योग्य हैं। डेटासेट अभी भी व्यक्तिगत है। GDPR अनुच्छेद 89 नियम अभी भी लागू होते हैं। तो तीन जोखिम उभरते हैं।

अनुच्छेद 89 अनुसंधान छूट: अनुच्छेद 89 शोधकर्ताओं को कम कर्तव्यों के साथ विज्ञान के लिए व्यक्तिगत जानकारी प्रोसेस करने देता है। लेकिन केवल जहाँ "उचित सुरक्षा उपाय" मौजूद हों। अनुच्छेद 89 कवर का दावा करते हुए खुले-टेक्स्ट PII वाली फ़ाइल साझा करना एक कानूनी विफलता है।

नैतिक अनुमोदन: अधिकांश IRB और नैतिक बोर्ड साझा डेटासेट के लिए पूर्ण अनामीकरण की आवश्यकता है। आंशिक काम — निश्चित कॉलम साफ, खुले-टेक्स्ट कच्चे — आमतौर पर विफल होता है।

डेटा साझाकरण समझौते: संस्थाओं के बीच DSA आवश्यक अनामीकरण स्तर निर्धारित करते हैं। GDPR Recital 26 को विफल करने वाला आंशिक काम DSA का उल्लंघन कर सकता है। यह एक व्यापक कार्यक्रम में कैसे फिट होता है, इसके लिए हमारा कानूनी अनुपालन अवलोकन देखें।

खुले-टेक्स्ट को साफ करना इतना कठिन क्यों है

फ्री-टेक्स्ट सर्वेक्षण उत्तर सबसे कठिन PII लक्ष्यों में से हैं। कारण यहाँ हैं।

संदर्भ में नाम: "Boston Medical Center में Dr. Maria Santos" के लिए एक व्यक्ति और एक संगठन को flag करने के लिए named entity recognition (NER) की जरूरत होती है। Keyword सूचियाँ यह नहीं ढूंढ सकतीं।

कहानियों में नाम: "John Henderson की कार ने मेरी कार को मारा" एक कहानी में एक वास्तविक नाम डालता है। केवल NER इसे पकड़ता है।

गैर-मानक फ़ॉर्मेट: संपर्क जानकारी "margaret dot wells at gmail" पढ़ सकती है। सरल regex टूल इन्हें चूक जाते हैं।

अनुसंधान-विशिष्ट शब्द: नैदानिक सर्वेक्षणों में अक्सर अस्पताल ID, साइट कोड और स्थान नाम होते हैं जो सामान्य दिखने के बावजूद किसी व्यक्ति की पहचान कर सकते हैं।

इसलिए pattern matching अकेले पर्याप्त नहीं है। वास्तविक सर्वेक्षण अनामीकरण के लिए NLP-आधारित टूल की जरूरत होती है। तकनीकी विकल्पों के लिए Security & Compliance देखें।

तीन विश्वविद्यालयों का एक वास्तविक उदाहरण

तीन यूरोपीय विश्वविद्यालयों की एक शोध टीम ने रोगी अनुभव सर्वेक्षण चलाया। डेटासेट में 5,000 उत्तरदाता, 3 निश्चित PII कॉलम और 8 खुले-टेक्स्ट कॉलम थे। योजना थी कि DSA और GDPR अनुच्छेद 89 के तहत साइटों में फ़ाइल साझा की जाए।

केवल कॉलम हटाने के साथ:

निश्चित PII कॉलम: हटाए
खुले-टेक्स्ट कॉलम: कच्चे छोड़े
दावा: "PII कॉलम हटाए गए"
छोड़ी गई PII: 47 नामित लोग, टिप्पणियों में 23 ईमेल पते, 18 स्थान नाम जो उत्तरदाताओं की पहचान कर सकते थे

NLP-आधारित detection के साथ:

निश्चित PII कॉलम: सुसंगत टोकन से बदले
खुले-टेक्स्ट कॉलम: 47 नाम बदले, 23 ईमेल masked, 18 स्थान नाम सामान्यीकृत ("Boston Medical Center" → "[Healthcare Institution]")
परिणाम: GDPR Recital 26 को पास करने वाली फ़ाइल
नैतिक बोर्ड ने विधि को मंजूरी दी
DPO ने DSA अनुपालन की पुष्टि की

खाई वास्तविक है। पहला आउटपुट साफ दिखता है। दूसरा आउटपुट वास्तव में साफ है।

पाँच-चरण पूर्व-साझाकरण प्रोटोकॉल

किसी भी सर्वेक्षण या साक्षात्कार फ़ाइल को साझा करने से पहले इन चरणों का उपयोग करें।

चरण 1: प्रत्येक कॉलम लेबल करें हर कॉलम को निश्चित PII, निश्चित गैर-PII, या खुले-टेक्स्ट के रूप में चिह्नित करें।

चरण 2: निश्चित PII संभालें विश्लेषण के लिए जरूरी प्रविष्टियाँ हटाएँ। रिकॉर्ड लिंकिंग के लिए जरूरी प्रविष्टियाँ बदलें।

चरण 3: खुले-टेक्स्ट कॉलम स्कैन करें सभी खुले-टेक्स्ट कॉलम पर NLP detection चलाएँ। प्रत्येक परिणाम की समीक्षा करें।

चरण 4: प्रतिस्थापन लागू करें खुले-टेक्स्ट आउटपुट में पुष्टि की गई PII बदलें। स्पष्ट लेबल जैसे [PERSON], [EMAIL] या [LOCATION] उपयोग करें।

चरण 5: सत्यापन और दस्तावेज़ीकरण आउटपुट से 50-100 पंक्तियाँ सैंपल करें। खुले-टेक्स्ट प्रविष्टियाँ हाथ से जाँचें। एक संक्षिप्त सारांश लिखें: उपयोग किए गए टूल, पाए गए entity प्रकार, प्रोसेस किए गए कॉलम। नैतिक समीक्षा के लिए फ़ाइल के साथ साझा करें।

यह "हमने नाम कॉलम हटाया" को एक स्पष्ट, प्रलेखित प्रक्रिया में बदलता है। यह GDPR अनुच्छेद 89 और अनामीकरण मानकों को पूरा करता है। संबंधित गाइड के लिए हमारा docs hub देखें।

स्रोत

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

CSV फ्री-टेक्स्ट PII: कॉलम हटाने से आगे

वह खाई जिसे कॉलम हटाना चूक जाता है

खुले-टेक्स्ट को साफ करना इतना कठिन क्यों है

तीन विश्वविद्यालयों का एक वास्तविक उदाहरण

पाँच-चरण पूर्व-साझाकरण प्रोटोकॉल

स्रोत

संबंधित लेख

Self-Hosted PII Compliance Audits में विफल होता है

Presidio 220+ GDPR संस्थाओं को चूक जाता है

कॉन्फ़िगरेशन ड्रिफ्ट: एक छिपा GDPR जोखिम

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

CSV फ्री-टेक्स्ट PII: कॉलम हटाने से आगे

वह खाई जिसे कॉलम हटाना चूक जाता है

यह GDPR मानक को क्यों विफल करता है

खुले-टेक्स्ट को साफ करना इतना कठिन क्यों है

तीन विश्वविद्यालयों का एक वास्तविक उदाहरण

पाँच-चरण पूर्व-साझाकरण प्रोटोकॉल

स्रोत

संबंधित लेख

Self-Hosted PII Compliance Audits में विफल होता है

Presidio 220+ GDPR संस्थाओं को चूक जाता है

कॉन्फ़िगरेशन ड्रिफ्ट: एक छिपा GDPR जोखिम

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow