पुनरुत्पादक गोपनीयता: क्यों ML टीमों को केवल दस्तावेज़ीकरण के बजाय कॉन्फ़िगरेशन प्रीसेट की आवश्यकता है
DPO ने अज्ञातकरण प्रक्रिया दस्तावेज़ को मंजूरी दी। इसमें निर्दिष्ट है: प्रशिक्षण डेटासेट से नाम, ईमेल, फोन नंबर और जन्म तिथियाँ हटाएँ, जिसे Replace विधि का उपयोग करके किया जाता है। यह दस्तावेज़ 4 पृष्ठों का है और अनुपालन विकी में है।
बारह डेटा वैज्ञानिक इसे परियोजना की शुरुआत पर परामर्श करते हैं। वे अज्ञातकरण उपकरण के अपने संस्करण कॉन्फ़िगर करते हैं। कुछ राष्ट्रीय आईडी जोड़ते हैं। कुछ IP पते शामिल करते हैं। कुछ Replace के बजाय Redact का उपयोग करते हैं। तीन महीने बाद, प्रशिक्षण डेटासेट असंगत होते हैं।
CNIL (फ्रांस का DPA) ने 2024 में कई AI कंपनियों की जांच की कि उन्होंने प्रशिक्षण डेटासेट में व्यक्तिगत डेटा का अनुचित उपयोग किया। जांच ने यह नहीं देखा कि अज्ञातकरण हुआ या नहीं, बल्कि यह भी देखा कि इसे कितनी लगातार लागू किया गया।
दस्तावेज़ीकरण आवश्यक है। यह पर्याप्त नहीं है। तकनीकी समाधान प्रीसेट है।
क्यों ML प्रशिक्षण डेटा को विशिष्ट कॉन्फ़िगरेशन की आवश्यकता होती है
ML प्रशिक्षण डेटा का अज्ञातकरण ऐसे आवश्यकताएँ हैं जो सामान्य दस्तावेज़ अज्ञातकरण में नहीं होतीं:
Replace, not Redact: न्यूरल भाषा मॉडल उन पाठों पर प्रशिक्षित होते हैं जहाँ नामों को [REDACTED] टोकनों से बदला जाता है, वे सीखते हैं कि [REDACTED] एक विशेष पहचानकर्ता है जो नाम स्थानों में दिखाई देता है। यह अवांछनीय मॉडल व्यवहार उत्पन्न करता है। Replace विधि ("John Smith" को "David Chen" से बदलना) पाठ में नामों के सांख्यिकीय वितरण को बनाए रखती है जबकि पहचान करने वाली जानकारी को हटा देती है। मॉडल वास्तविक नाम-स्थान वितरण से सीखता है, न कि एक मास्क टोकन से।
डेटासेट में निरंतरता: एक प्रशिक्षण डेटासेट जहाँ 70% नामों को बदला गया है और 30% [REDACTED] हैं, असंगत प्रशिक्षण संकेत उत्पन्न करता है। सभी रिकॉर्ड को समान रूप से संसाधित किया जाना चाहिए।
संगत एंटिटी चयन: यदि प्रशिक्षण डेटासेट में स्वास्थ्य डेटा है, तो कुछ रिकॉर्ड में नामों को हटाना लेकिन जन्म तिथियों को नहीं हटाना असंगति उत्पन्न करता है। सभी 12 डेटा वैज्ञानिकों को समान एंटिटी प्रकारों को हटाना चाहिए।
अधिक अज्ञातकरण नहीं: Replace विधि का अधिक उपयोग — केवल टाइमस्टैम्प के रूप में मौजूद तिथियों को हटाना, जन्म तिथि नहीं — डेटासेट की उपयोगिता को कम करता है बिना अनुपालन में सुधार किए। अनुमोदित प्रीसेट ठीक से परिभाषित करता है कि कौन सी तिथि एंटिटीज़ को हटाना है (जन्म तिथि, सामान्य टाइमस्टैम्प नहीं)।
रन के बीच पुनरुत्पादकता: यदि उसी डेटासेट को फिर से संसाधित करने की आवश्यकता है (जैसे, एक छूटे हुए एंटिटी प्रकार का पता लगाने के बाद), तो उसी प्रीसेट के साथ पुनः संसाधित करने से निरंतर आउटपुट उत्पन्न होता है। आकस्मिक कॉन्फ़िगरेशन पुनरुत्पादक नहीं होते।
12-डेटा-वैज्ञानिक समस्या
एक यूरोपीय फिनटेक कंपनी की ML टीम एक प्रशिक्षण डेटासेट का उपयोग करती है जो ग्राहक इंटरैक्शन लॉग से निकाला गया है। DPO ने प्रसंस्करण उद्देश्य (धोखाधड़ी पहचान के लिए मॉडल प्रशिक्षण) को शर्तों के साथ मंजूरी दी: सभी ग्राहक नाम, ईमेल, फोन नंबर और भुगतान पहचानकर्ताओं को Replace विधि का उपयोग करके किसी भी मॉडल प्रशिक्षण से पहले बदलना चाहिए।
बिना प्रीसेट के:
- डेटा वैज्ञानिक 1 नाम, ईमेल, फोन नंबर हटाता है (भुगतान पहचानकर्ताओं को शामिल नहीं करता)
- डेटा वैज्ञानिक 2 भुगतान पहचानकर्ताओं को शामिल करता है लेकिन Redact का उपयोग करता है न कि Replace
- डेटा वैज्ञानिक 3 प्रक्रिया दस्तावेज़ का ठीक से पालन करता है
- डेटा वैज्ञानिक 4-12 भिन्न होते हैं
परिणाम: प्रशिक्षण डेटा के 12 विभिन्न संसाधित संस्करण। संयुक्त डेटासेट आंशिक रूप से गैर-अनुपालन, आंशिक रूप से अधिक अज्ञात और सांख्यिकीय रूप से असंगत है।
DPO-अनुमोदित प्रीसेट के साथ:
- DPO "ML Training — Fraud Detection" प्रीसेट बनाता है जिसमें सटीक एंटिटी प्रकार और Replace विधि होती है
- प्रीसेट सभी 12 डेटा वैज्ञानिकों के साथ साझा किया जाता है जिसमें निर्देश होते हैं: "सभी प्रशिक्षण डेटा तैयारी के लिए इस प्रीसेट का उपयोग करें"
- प्रीसेट को DPO की समीक्षा के बिना संशोधित नहीं किया जा सकता (कॉन्फ़िगरेशन पहुँच नियंत्रण)
परिणाम: सभी 12 डेटा वैज्ञानिक समान अज्ञातकरण आउटपुट उत्पन्न करते हैं। संयुक्त डेटासेट संगत है। वार्षिक AI अनुपालन ऑडिट बिना निष्कर्षों के पास होता है।
पिछले वर्ष: असंगत ML प्रशिक्षण डेटा अज्ञातकरण से संबंधित 3 निष्कर्ष। प्रीसेट के बाद: 0 निष्कर्ष।
GDPR AI अधिनियम का इंटरसेक्शन
EU AI अधिनियम (अगस्त 2024 से प्रभावी) व्यक्तिगत डेटा का उपयोग करने वाले AI सिस्टम के लिए अनुपालन आवश्यकताएँ जोड़ता है। उच्च जोखिम वाले AI सिस्टम को उनके प्रशिक्षण डेटा का दस्तावेज़ीकरण करना चाहिए, जिसमें लागू अज्ञातकरण उपाय शामिल हैं।
GDPR का उद्देश्य सीमा सिद्धांत (अनुच्छेद 5(1)(b)) व्यक्तिगत डेटा के उपयोग को ML प्रशिक्षण के लिए विशेष कानूनी आधार के बिना सीमित करता है। CNIL की 2024 की प्रवर्तन कार्रवाइयाँ AI कंपनियों के खिलाफ इस इंटरसेक्शन पर केंद्रित थीं: सेवा वितरण के लिए एकत्रित व्यक्तिगत डेटा का प्रशिक्षण के लिए उपयोग किया जा रहा है बिना पर्याप्त कानूनी आधार या अज्ञातकरण के।
GDPR और AI अधिनियम दोनों की दस्तावेज़ीकरण आवश्यकताएँ तब अधिक आसानी से पूरी होती हैं जब प्रशिक्षण डेटा अज्ञातकरण प्रक्रिया को तकनीकी रूप से प्रीसेट के माध्यम से लागू किया जाता है:
- प्रीसेट नाम और कॉन्फ़िगरेशन: दस्तावेज़ीकृत अज्ञातकरण पद्धति
- प्रसंस्करण लॉग: यह प्रमाण कि पद्धति को विशिष्ट डेटासेट पर लागू किया गया था
- DPO अनुमोदन: प्रीसेट कॉन्फ़िगरेशन को अधिकृत करने वाला रिकॉर्ड किया गया निर्णय
यह दोनों विनियमों द्वारा आवश्यक ऑडिट ट्रेल बनाता है।
ML प्रशिक्षण डेटा के लिए प्रीसेट कॉन्फ़िगरेशन
अधिकांश NLP प्रशिक्षण डेटा के लिए एंटिटी प्रकार:
- PERSON (नाम — समान नामों से बदलें)
- EMAIL_ADDRESS (संश्लेषित ईमेल से बदलें)
- PHONE_NUMBER (संश्लेषित फोन नंबर से बदलें)
- CREDIT_CARD / IBAN (बदलें या Redact — भुगतान डेटा)
- LOCATION (यदि मॉडल के लिए भूगोल की आवश्यकता है तो समान स्थानों से बदलें; यदि नहीं तो Redact)
- DATE_OF_BIRTH (Redact — उम्र सामान्यीकरण अक्सर आवश्यक होता है)
NLP प्रशिक्षण डेटा के लिए आमतौर पर शामिल नहीं किए जाने वाले एंटिटी प्रकार:
- सामान्य तिथियाँ (जन्म तिथि नहीं) — टाइमस्टैम्प और पाठ में तिथियाँ अक्सर समय संबंधी मॉडलिंग के लिए आवश्यक होती हैं
- संगठन के नाम — अक्सर एंटिटी पहचान प्रशिक्षण के लिए आवश्यक होते हैं
- URLs — अक्सर लिंकिंग और संदर्भ निष्कर्षण के लिए आवश्यक होते हैं
ML लीड और DPO इन भेदों को अनुमोदित प्रीसेट में परिभाषित करते हैं। व्यक्तिगत डेटा वैज्ञानिक इन निर्णयों को नहीं लेते — वे प्रीसेट लागू करते हैं।
संस्थागत ज्ञान और प्रीसेट संस्करण
प्रीसेट एक संस्थागत स्मृति कार्य करते हैं:
प्रीसेट से पहले: ML प्रशिक्षण डेटा के लिए सही एंटिटी कॉन्फ़िगरेशन उन तीन डेटा वैज्ञानिकों के दिमाग में था जिन्होंने अनुपालन समीक्षा प्रक्रिया के माध्यम से काम किया था। जब उनमें से दो Q3 में चले गए, तो संस्थागत ज्ञान खो गया।
प्रीसेट के बाद: कॉन्फ़िगरेशन "ML Training — Customer Data v2.1" में एन्कोडेड है। संस्करण इतिहास दिखाता है कि इसे कब बनाया गया, किसने इसे मंजूरी दी, और v2.0 और v2.1 के बीच क्या बदला। नए डेटा वैज्ञानिक प्रीसेट का उपयोग करते हैं और इसमें निहित संस्थागत ज्ञान को विरासत में लेते हैं।
संस्करण 2.1 ने एक अनुपालन समीक्षा के बाद IBAN पहचान को जोड़ा, जिसमें पाया गया कि यह गायब था। संस्करण 2.0 के रिकॉर्ड दिखाते हैं कि इसे फरवरी 2025 में मंजूरी दी गई थी। ऑडिट ट्रेल पूरा है।
निष्कर्ष
दस्तावेज़ीकरण टीम के सदस्यों को बताता है कि क्या करना है। प्रीसेट इसे तकनीकी रूप से आसान बनाते हैं — और तकनीकी रूप से लागू करने योग्य — इसे लगातार करने के लिए।
विशेष रूप से ML प्रशिक्षण डेटा के लिए, निरंतरता एक अनुपालन आवश्यकता (GDPR, AI अधिनियम) और एक तकनीकी आवश्यकता (मॉडल प्रशिक्षण के लिए निरंतर पूर्व-प्रसंस्करण की आवश्यकता होती है) दोनों है। प्रीसेट दोनों को एक साथ संतुष्ट करता है।
CNIL और अन्य DPA जो AI प्रशिक्षण डेटा प्रथाओं की जांच कर रहे हैं, वे प्रणालीगत, लगातार अज्ञातकरण के प्रमाण की तलाश करेंगे। सभी प्रशिक्षण डेटा तैयारी में समान रूप से लागू किया गया प्रीसेट सबसे मजबूत उपलब्ध प्रमाण है।
स्रोत: