एक अनुपालन जोखिम को हल करने में समस्या
वे संगठन जो AI उपकरणों के डेटा लीक जोखिम को आत्मसात कर चुके हैं, अक्सर एक तार्किक समाधान लागू करते हैं: संवेदनशील सामग्री को AI प्रदाताओं तक पहुँचने से पहले अनामित करना, स्थायी या एकतरफा अनामकरण का उपयोग करके जिसे पलटा नहीं जा सकता।
सुरक्षा पक्ष पर तर्क सही है। Cyberhaven का Q4 2025 विश्लेषण ने पाया कि 34.8% सामग्री जो ChatGPT को प्रस्तुत की गई संवेदनशील जानकारी शामिल है। Ponemon Institute का 2024 शोध स्थापित करता है कि AI डेटा लीक की औसत लागत $2.1 मिलियन है। eSecurity Planet और Cyberhaven के शोध ने पाया कि 77% कर्मचारी सप्ताह में एक बार AI उपकरणों के साथ संवेदनशील डेटा साझा करते हैं। जोखिम वास्तविक, बार-बार और महंगा है।
लेकिन स्थायी अनामकरण — अपरिवर्तनीय एकतरफा हैशिंग, विनाशकारी संपादन, या कुंजी संरक्षण के बिना उपनामकरण — AI सुरक्षा समस्या को हल करता है जबकि एक अलग समस्या उत्पन्न करता है: सबूतों का स्पोलीशन।
वह संगठन जो मुकदमे, नियामक जांच, या खोज दायित्वों के अधीन हैं, उनके लिए अनामित प्रतिनिधित्व से मूल डेटा को पुनः प्राप्त करने की क्षमता को स्थायी रूप से नष्ट करना संघीय और राज्य खोज नियमों के तहत स्पोलीशन का गठन कर सकता है। एक दस्तावेज़ जो स्थायी रूप से अनामित किया गया है और जिससे मूल जानकारी को पुनः प्राप्त नहीं किया जा सकता है, उसे नष्ट किए गए सबूत के रूप में माना जा सकता है।
डेटा साझा करने का पैमाना जो इसे तात्कालिक बनाता है
77% साप्ताहिक साझा करने की दर दायरा स्थापित करती है। विभिन्न उद्योगों के कर्मचारी — कानूनी, स्वास्थ्य देखभाल, वित्तीय सेवाएँ, प्रौद्योगिकी — अपने कार्य से संबंधित सामग्री को AI उपकरणों को नियमित रूप से प्रस्तुत कर रहे हैं।
वह सामग्री शामिल है:
- ग्राहक संचार और पत्राचार
- अनुबंध ड्राफ्ट और बातचीत की शर्तें
- आंतरिक रणनीति चर्चाएँ और व्यावसायिक योजना दस्तावेज़
- वित्तीय पूर्वानुमान और मॉडलिंग डेटा
- कानूनी शोध ज्ञापन और मामले की रणनीति नोट्स
- रोगी जानकारी और नैदानिक दस्तावेज़
- कर्मचारी रिकॉर्ड और HR संचार
जब एक संगठन AI सुरक्षा नियंत्रण के रूप में स्थायी अनामकरण लागू करता है, तो व्यापार के सामान्य प्रवाह में उस नियंत्रण से गुजरने वाला प्रत्येक दस्तावेज़ ऐसे तरीकों से परिवर्तित हो सकता है जो इसके सबूत मूल्य को नष्ट कर देते हैं। यदि इनमें से कोई भी दस्तावेज़ भविष्य के मुकदमे के लिए प्रासंगिक हो जाता है — जो, नियामित उद्योगों में बड़े पैमाने पर काम करने वाले संगठनों के लिए, कई वर्षों की अवधि में लगभग निश्चितता है — तो संगठन ने संभावित रूप से स्पोलीटेड सबूत उत्पन्न किया है।
GDPR की पुनःप्रवर्तनीयता की आवश्यकता
यूरोपीय संघ का डेटा सुरक्षा के लिए नियामक ढांचा स्पष्ट रूप से उपनामकरण के संदर्भ में पुनःप्रवर्तनीयता के प्रश्न को संबोधित करता है।
GDPR अनुच्छेद 4(5) उपनामकरण को "व्यक्तिगत डेटा को इस प्रकार संसाधित करना कि व्यक्तिगत डेटा को किसी विशेष डेटा विषय से जोड़ना संभव नहीं है, जब तक कि अतिरिक्त जानकारी का उपयोग न किया जाए, बशर्ते कि ऐसी अतिरिक्त जानकारी को अलग रखा जाए और तकनीकी और संगठनात्मक उपायों के अधीन हो ताकि व्यक्तिगत डेटा को किसी पहचाने गए या पहचानने योग्य प्राकृतिक व्यक्ति से नहीं जोड़ा जा सके।" के रूप में परिभाषित करता है।
परिभाषा यह आवश्यक बनाती है कि "अतिरिक्त जानकारी" — वह कुंजी जो पुनः-आवंटन की अनुमति देती है — बनाए रखी जाए। GDPR के तहत उपनामित डेटा वह डेटा है जिसे अलग से संग्रहीत कुंजियों का उपयोग करके पुनः पहचाना जा सकता है। डेटा जिसे पुनः पहचाना नहीं जा सकता है, वह GDPR के तहत उपनामित नहीं है — यह अनामित है, और अनुपालन उद्देश्यों के लिए GDPR का यह अंतर महत्वपूर्ण है।
यूरोपीय डेटा प्रोटेक्शन बोर्ड के दिशानिर्देश 05/2022 उपनामकरण के उपयोग पर पुष्टि करते हैं कि पुनःप्रवर्तनीयता विनियमन के तहत उपनामकरण की एक परिभाषात्मक आवश्यकता है। जो संगठन स्थायी एकतरफा अनामकरण लागू करते हैं, वे GDPR द्वारा परिभाषित उपनामकरण को लागू नहीं कर रहे हैं — वे अनामकरण लागू कर रहे हैं। अनुपालन के परिणाम भिन्न होते हैं: उपनामित डेटा कुछ GDPR दायित्वों को बनाए रखता है जबकि वास्तव में अनामित डेटा GDPR के दायरे से बाहर हो सकता है, लेकिन संचालन का यह अंतर भी महत्वपूर्ण है — उपनामित डेटा को कानूनी खोज सहित वैध उद्देश्यों के लिए पुनः प्राप्त किया जा सकता है, जबकि स्थायी रूप से अनामित डेटा को नहीं।
संघीय नियम स्पोलीशन ढांचा
संघीय नागरिक प्रक्रिया के नियमों के तहत, मुकदमे के पक्षों के पास उन दस्तावेजों और इलेक्ट्रॉनिक रूप से संग्रहीत जानकारी को संरक्षित करने की जिम्मेदारी होती है जो अपेक्षित या वास्तविक मुकदमे के लिए प्रासंगिक हो सकते हैं। यह जिम्मेदारी तब जुड़ती है जब मुकदमा उचित रूप से अपेक्षित होता है — जब मुकदमा दायर नहीं होता।
नियम 37(e) अदालतों को उस समय दंड लगाने का अधिकार प्रदान करता है जब एक पक्ष इलेक्ट्रॉनिक रूप से संग्रहीत जानकारी को संरक्षित करने में विफल रहता है जिसे संरक्षित किया जाना चाहिए था, और यह विफलता दूसरे पक्ष को पूर्वाग्रह का परिणाम देती है। दंड में शामिल हो सकते हैं:
- अनुमानित प्रतिकूल निष्कर्ष निर्देश (जूरी को निर्देशित किया जाता है कि नष्ट किए गए सबूत स्पोलीटिंग पार्टी के लिए प्रतिकूल होते)
- सबूत का निषेध
- गंभीर परिस्थितियों में मामले-निषेधात्मक दंड
स्थायी अनामकरण के संदर्भ में स्पोलीशन विश्लेषण इस प्रकार कार्य करता है: यदि एक संगठन एक AI कार्यप्रवाह का उपयोग करता है जो सामान्य व्यापार के प्रवाह में दस्तावेज़ों को स्थायी रूप से अनामित करता है, और वे दस्तावेज़ बाद में मुकदमे के लिए प्रासंगिक हो जाते हैं, तो संगठन ने उन दस्तावेज़ों को इस तरह से संशोधित किया है कि उनके मूल सामग्री को पुनः प्राप्त करने से रोका जा सके। यदि संशोधन तब हुआ जब संरक्षित करने की जिम्मेदारी जुड़ी थी — या यदि संगठन को पता था या पता होना चाहिए था कि अनामित किए जा रहे दस्तावेज़ों का प्रकार उचित रूप से अपेक्षित मुकदमे के लिए प्रासंगिक हो सकता है — तो संगठन स्पोलीशन जोखिम का सामना करता है।
यह काल्पनिक नहीं है। ऐसे उद्योगों में संगठन जो निरंतर नियामक जांच, बार-बार मुकदमे के जोखिम, या संविदात्मक विवाद इतिहास का सामना करते हैं, दस्तावेज़ों के व्यापक श्रेणियों के लिए उचित मुकदमे की अपेक्षा की निरंतर स्थिति का सामना करते हैं। दस्तावेज़ कार्यप्रवाह में स्थायी अनामकरण को लागू करना बिना संभावित रूप से प्रासंगिक सामग्रियों के लिए छूट के एक प्रणालीगत स्पोलीशन जोखिम है।
तकनीकी अंतर: पुनःप्रवर्तनीय बनाम अपरिवर्तनीय
पुनःप्रवर्तनीय और अपरिवर्तनीय अनामकरण के बीच तकनीकी अंतर आर्किटेक्चरल है, न कि इंक्रीमेंटल।
अपरिवर्तनीय अनामकरण (हैशिंग, स्थायी प्रतिस्थापन, विनाशकारी संपादन) डेटा को इस प्रकार रूपांतरित करता है जिसे वापस नहीं किया जा सकता। ग्राहक नाम का SHA-256 हैशिंग एक निश्चित लंबाई का हैश उत्पन्न करता है जिससे नाम को निकाला नहीं जा सकता। स्थायी संपादन सामग्री को इस तरह से प्रतिस्थापित करता है जो मूल पाठ को नष्ट कर देता है।
पुनःप्रवर्तनीय उपनामकरण (कुंजी संरक्षण के साथ टोकन प्रतिस्थापन, AES-256-GCM एन्क्रिप्शन) डेटा को इस प्रकार रूपांतरित करता है जिसे अलग से संग्रहीत जानकारी का उपयोग करके वापस किया जा सकता है। एक ग्राहक नाम जिसे एक संरचित टोकन से प्रतिस्थापित किया गया है, उसे मूल नाम के साथ पुनः जोड़ने के लिए एक मैपिंग तालिका का उपयोग किया जा सकता है। AES-256-GCM एन्क्रिप्टेड सामग्री को संबंधित कुंजी का उपयोग करके डिक्रिप्ट किया जा सकता है। मूल सामग्री पुनः प्राप्त करने योग्य रहती है।
AI सुरक्षा उद्देश्यों के लिए — संवेदनशील डेटा को AI प्रदाताओं तक पहुँचने से रोकना — दोनों दृष्टिकोण एक ही लक्ष्य को प्राप्त करते हैं। AI मॉडल टोकन या उपनामित सामग्री को संसाधित करता है और कभी भी मूल संवेदनशील डेटा को नहीं देखता।
कानूनी अनुपालन के लिए — खोज, नियामक प्रतिक्रिया, या वैध व्यावसायिक उद्देश्यों के लिए मूल सामग्री को पुनः प्राप्त करने की क्षमता को बनाए रखना — केवल पुनःप्रवर्तनीय उपनामकरण संगत है। अपरिवर्तनीय दृष्टिकोण पुनः प्राप्त करने की क्षमता को समाप्त कर देते हैं और ऊपर वर्णित स्पोलीशन जोखिम उत्पन्न करते हैं।
अनुपालन आर्किटेक्चर
वह आर्किटेक्चर जो AI सुरक्षा और खोज अनुपालन दोनों को संबोधित करता है, पुनःप्रवर्तनीय AES-256-GCM उपनामकरण का उपयोग करता है:
- दस्तावेज़ों को AI उपकरणों को प्रस्तुत करने से पहले संसाधित किया जाता है
- संवेदनशील संस्थाएँ — नाम, खाता संख्या, पहचानकर्ता, PHI, विशेष सामग्री — संरचित टोकनों से प्रतिस्थापित की जाती हैं
- टोकन-से-मूल मैपिंग को अलग से संग्रहीत किया जाता है जिसमें डेटा संवेदनशीलता के अनुसार पहुँच नियंत्रण होते हैं
- AI प्रसंस्करण टोकनयुक्त संस्करण पर होता है — AI मॉडल कभी भी पुनः प्राप्त करने योग्य संवेदनशील सामग्री प्राप्त नहीं करता
- परिणामों को वैध व्यावसायिक उपयोग के लिए संग्रहीत मैपिंग का उपयोग करके डीकोड किया जाता है
- जब खोज दायित्व लागू होते हैं, तो मैपिंग मुकदमे की रोक के अधीन होती है
इस आर्किटेक्चर के तहत, मूल सामग्री कभी भी नष्ट नहीं होती। AI प्रदाता इसे उपयोगी रूप में कभी प्राप्त नहीं करता। टोकन मैपिंग कानूनी रूप से आवश्यक होने पर मूल सामग्री को पुनः प्राप्त करने की क्षमता को बनाए रखता है। स्पोलीशन जोखिम समाप्त हो जाता है क्योंकि कोई सबूत नष्ट नहीं होता — केवल अस्थायी रूप से पुनःप्रवर्तनीय तरीके से उपनामित किया जाता है।
अनुच्छेद 4(5) के तहत GDPR उपनामकरण की आवश्यकता पूरी होती है: अतिरिक्त जानकारी (टोकन मैपिंग) को उचित तकनीकी और संगठनात्मक उपायों के साथ अलग रखा जाता है। संघीय नियमों के संरक्षण की आवश्यकता पूरी होती है: जब मुकदमे की रोक लागू होती है, तो मूल सामग्री को पुनः प्राप्त किया जा सकता है।
AI सुरक्षा नियंत्रण लागू करने वाले संगठनों के पास एक द्विआधारी विकल्प होता है: स्थायी रूप से अनामित करें और खोज जोखिम उत्पन्न करें, या पुनःप्रवर्तनीय उपनामित करें और एक साथ सुरक्षा और अनुपालन आवश्यकताओं को पूरा करें। $2.1 मिलियन की औसत AI लीक लागत जो सुरक्षा नियंत्रण निर्णय को प्रेरित करती है, स्पोलीशन दंड की संभावित लागत के खिलाफ तौली जानी चाहिए — जो, महत्वपूर्ण मौद्रिक दांव वाले मामलों में, समान या अधिक क्रम के आकार तक पहुँच सकती है।
स्रोत: