पद्धति स्क्रीनशॉट समस्या
शैक्षणिक और शोध प्रकाशनों ने एक दस्तावेज़ीकरण पैटर्न विकसित किया है जो एक कम सराहनीय GDPR जोखिम बनाता है: पद्धति प्रदर्शित करने के हिस्से के रूप में वास्तविक डेटा दिखाने वाले डेटा विश्लेषण वातावरण के स्क्रीनशॉट।
दृश्य सामान्य हैं:
- एक मशीन लर्निंग पेपर में प्रशिक्षण डेटासेट की पहली 10 पंक्तियों को दिखाने वाले pandas DataFrame का स्क्रीनशॉट शामिल है — जिसमें डेटा स्रोत से वास्तविक रोगी रिकॉर्ड हैं
- एक नैदानिक डेटा विश्लेषण पेपर आंशिक रूप से दृश्यमान रोगी ID के साथ व्यक्तिगत रोगी मूल्यों के साथ R आउटपुट दिखाता है
- एक कम्प्यूटेशनल सामाजिक विज्ञान पेपर में SPSS आउटपुट तालिकाएं शामिल हैं जो विश्लेषण प्रक्रिया समझाने के लिए व्यक्तिगत सर्वेक्षण उत्तरदाता मूल्य दिखाती हैं
- एक शोध पत्रिका में प्रकाशित एक डेटा इंजीनियरिंग ट्यूटोरियल में illustration के लिए "नमूना डेटा" के रूप में उपयोग किए गए वास्तविक उपयोगकर्ता रिकॉर्ड के साथ Jupyter नोटबुक स्क्रीनशॉट शामिल हैं
प्रत्येक मामले में, लेखक व्यक्तिगत डेटा प्रकाशित करने का इरादा नहीं रखता था। स्क्रीनशॉट पद्धति को दस्तावेज़ करने के लिए शामिल किया गया था। स्क्रीनशॉट में व्यक्तिगत डेटा आकस्मिक था।
लेकिन "आकस्मिक" इसे अनुपालन योग्य नहीं बनाता। GDPR अनुच्छेद 4(1) व्यक्तिगत डेटा को किसी पहचाने गए या पहचान योग्य प्राकृतिक व्यक्ति से संबंधित किसी भी जानकारी के रूप में परिभाषित करता है। एक प्रकाशित पेपर में रोगी रिकॉर्ड — भले ही एक स्क्रीनशॉट के रूप में — व्यक्तिगत डेटा है।
यह ठोस कानूनी जोखिम क्यों बनाता है
शोध संस्थान तेजी से डेटा प्रकाशन विफलताओं के लिए GDPR प्रवर्तन का सामना कर रहे हैं:
पत्रिका वापसी अनुरोध: GDPR मिटाने का अधिकार (अनुच्छेद 17) प्रकाशित डेटा तक विस्तारित होता है। यदि कोई डेटा विषय प्रकाशित पेपर में अपना व्यक्तिगत डेटा खोजता है, तो वे मिटाने का अनुरोध कर सकते हैं — जो एक जर्नल लेख के लिए आमतौर पर वापसी या सुधार नोटिस का मतलब है।
शोध नैतिकता बोर्ड निष्कर्ष: प्रकाशित शोध की GDPR अनुपालन के लिए समीक्षा करने वाले शोध नैतिकता समितियों ने उचित सुरक्षा उपायों के बिना स्क्रीनशॉट में व्यक्तिगत-स्तर के डेटा वाले पेपरों के लिए निष्कर्ष जारी करना शुरू कर दिया है।
डेटा एक्सेस अनुबंध उल्लंघन: अधिकांश शोध डेटासेट डेटा एक्सेस अनुबंधों के तहत साझा किए जाते हैं जो निर्दिष्ट करते हैं कि डेटा का उपयोग कैसे किया जाए और क्या प्रकाशित किया जाए।
GDPR अनुच्छेद 89 शोध छूट सीमाएं: GDPR अनुच्छेद 89 कम दायित्वों के साथ वैज्ञानिक शोध के लिए व्यक्तिगत डेटा के प्रसंस्करण की अनुमति देता है — लेकिन केवल जहां "उचित सुरक्षा उपाय" लागू किए जाते हैं।
समस्या का पैमाना
यह घटना दुर्लभ नहीं है। 2022-2024 के बीच उच्च-प्रभाव पत्रिकाओं में प्रकाशित डेटा विज्ञान पेपरों की एक व्यवस्थित समीक्षा में शायद पर्याप्त अनुपात दृश्यमान व्यक्तिगत-स्तर डेटा वाली छवियों से युक्त मिलेगा।
योगदान करने वाले कारक:
पुनरुत्पादनीयता मानदंड: आधुनिक वैज्ञानिक प्रकाशन तेजी से आवश्यक है कि विधियों को परिणाम पुनरुत्पादित करने के लिए पर्याप्त विवरण के साथ दस्तावेज़ किया जाए।
प्रकाशन की गति: समय सीमा दबाव के तहत, शोधकर्ता प्रत्येक छवि की डेटा सामग्री की समीक्षा किए बिना जल्दी से स्क्रीनशॉट उत्पन्न करते हैं।
छवियों में डेटा की कम दृश्यता: 20 कॉलम और 5 पंक्तियों वाले DataFrame का स्क्रीनशॉट में नाम और ID परिधीय कॉलम में हो सकते हैं जिन पर शोधकर्ता ध्यान नहीं देता।
शोध समूहों के लिए स्क्रीनिंग कार्यान्वयन
पांडुलिपि PII स्क्रीनिंग लागू करने वाले शोध समूह के लिए व्यावहारिक कार्यप्रवाह:
प्री-सबमिशन प्रोटोकॉल:
- शोधकर्ता सभी आंकड़ों के साथ पांडुलिपि मसौदा पूरा करता है
- मसौदा आंतरिक स्क्रीनिंग के लिए सबमिट किया गया
- पांडुलिपि से जुड़ी सभी इमेज फाइलों पर इमेज PII पहचान चलाई जाती है
- पहचान रिपोर्ट पहचानती है: कौन सी छवियों में पठनीय टेक्स्ट है, कौन सा टेक्स्ट PII निकाय पैटर्न से मेल खाता है
- शोधकर्ता चिह्नित छवियों की समीक्षा करता है
- प्रत्येक चिह्नित छवि के लिए: उचित अनामीकृत स्क्रीनशॉट से बदलें
- अंतिम पांडुलिपि अनामीकृत स्क्रीनशॉट के साथ जर्नल में सबमिट की गई
केस स्टडी: यूरोपीय विश्वविद्यालय शोध नैतिकता आवश्यकता
एक यूरोपीय विश्वविद्यालय में डेटा विज्ञान शोध समूह ने अपने पांडुलिपि सबमिशन कार्यप्रवाह के भाग के रूप में इमेज PII स्क्रीनिंग लागू की।
कार्यान्वयन:
- पत्रिकाओं में सबमिट करने से पहले सभी मसौदा पेपरों को इमेज PII के लिए संसाधित किया गया
- स्क्रीनिंग मसौदे में सभी PNG, JPG, और PDF आंकड़े कवर करती है
6 महीनों में परिणाम:
- सबमिशन से पहले 23 पांडुलिपियां स्क्रीन की गईं
- 7 पांडुलिपियों (30%) में कम से कम एक पहचान योग्य PII निकायों वाली छवि थी
- पाए गए निकाय प्रकार: DataFrames में रोगी नाम (4 पेपर), रोगी पंजीकरण प्रारूप से मेल खाने वाले उपयोगकर्ता ID (2 पेपर), स्क्रीनशॉट हाशिये में ईमेल पते (1 पेपर)
- सभी 7 सबमिशन से पहले सुधारे गए
- अवधि के दौरान शून्य पोस्ट-सबमिशन वापसी अनुरोध या नैतिकता निष्कर्ष
संस्था की शोध नैतिकता समिति अब इस कार्यप्रवाह को GDPR अनुच्छेद 89 शोध छूट अनुप्रयोगों में "उचित सुरक्षा उपायों" के एक प्रलेखित उदाहरण के रूप में उपयोग करती है।
स्रोत: