पुनरुत्पादनीय गोपनीयता: ML टीमों को केवल दस्तावेज़ नहीं, प्रीसेट क्यों चाहिए
DPO ने अनामीकरण योजना स्वीकृत की। यह चार आइटम कवर करती है: नाम, ईमेल, फोन नंबर और जन्मतिथि। विधि Replace है। योजना चार पृष्ठ की है और कंप्लायंस विकी में रहती है।
बारह डेटा वैज्ञानिकों ने किकऑफ पर इसे पढ़ा। प्रत्येक ने अपने दम पर टूल सेट किया। कुछ ने राष्ट्रीय ID जोड़े। कुछ ने IP पते जोड़े। कुछ ने Redact पर स्विच किया। तीन महीने बाद, सेट सुसंगत नहीं हैं।
CNIL ने 2024 में कई AI फर्मों की जाँच की। मुद्दा: मॉडल सेट में व्यक्तिगत विवरणों का अनुचित उपयोग। उन्होंने केवल यह नहीं पूछा कि अनामीकरण हुआ था या नहीं। उन्होंने पूछा कि इसे कितनी सुसंगतता से लागू किया गया था।
दस्तावेज़ आवश्यक हैं। वे पर्याप्त नहीं हैं। समाधान प्रीसेट है।
ML मॉडल सेट को अपनी कॉन्फ़िगरेशन की आवश्यकता क्यों है
मॉडल सेट बनाने की अद्वितीय आवश्यकताएँ हैं। सामान्य दस्तावेज़ अनामीकरण उन्हें साझा नहीं करता।
Redact नहीं, Replace। उन मॉडलों को [REDACTED] बनने वाले नामों पर प्रशिक्षित किया जाता है जो उस टोकन को नाम-स्थिति मार्कर के रूप में सीखते हैं। यह मॉडल को नुकसान पहुँचाता है। Replace "John Smith" को "David Chen" से बदलता है। मॉडल वास्तविक नाम पैटर्न देखता है। वह मास्क टोकन नहीं देखता।
सभी रिकॉर्ड के लिए समान प्रक्रिया। एक सेट जहाँ 70% नाम Replace हैं और 30% [REDACTED] हैं मिश्रित संकेत भेजता है। प्रत्येक रिकॉर्ड को समान चरणों से गुजरना होगा।
समान एंटिटी सूची। यदि सेट में स्वास्थ्य विवरण हैं, तो कुछ रिकॉर्ड में नाम हटाना लेकिन जन्मतिथि छोड़ना अंतराल बनाता है। सभी बारह डेटा वैज्ञानिकों को समान प्रकार हटाने होंगे।
अति-निष्कासन नहीं। टाइमस्टैम्प वाली तारीखें हटाना — जन्मतिथि नहीं — बिना कंप्लायंस लाभ के सेट गुणवत्ता कम करता है। अनुमोदित प्रीसेट बिल्कुल कहता है कि कौन से आइटम हटाने हैं।
दोहराने योग्य आउटपुट। यदि किसी सेट को फिर से चलाना हो — कहें, एक छूटी हुई एंटिटी प्रकार पाए जाने के बाद — प्रीसेट हर बार समान परिणाम देता है। तदर्थ कॉन्फ़िगरेशन नहीं देते।
बारह डेटा वैज्ञानिक की समस्या
यूरोप में एक फिनटेक ML टीम ग्राहक लॉग से सेट का उपयोग करती है। DPO ने उद्देश्य स्वीकृत किया — धोखाधड़ी पहचान — एक नियम के साथ: मॉडल काम शुरू होने से पहले सभी ग्राहक नाम, ईमेल, फोन नंबर और भुगतान ID Replace होने चाहिए।
प्रीसेट के बिना:
- व्यक्ति 1 नाम, ईमेल और फोन नंबर हटाता है — लेकिन भुगतान ID चूकता है
- व्यक्ति 2 में भुगतान ID हैं लेकिन Replace के बजाय Redact उपयोग करता है
- व्यक्ति 3 योजना दस्तावेज़ का ठीक पालन करता है
- व्यक्ति 4–12 भिन्न होते हैं
मर्ज किया गया सेट आंशिक रूप से गैर-अनुपालन है और आंशिक रूप से अति-प्रसंस्कृत। DPO इसे प्रमाणित नहीं कर सकता।
DPO-अनुमोदित प्रीसेट के साथ:
- DPO सटीक एंटिटी प्रकार और Replace विधि के साथ "ML Dev — Fraud Detection" बनाता है
- प्रीसेट सभी बारह लोगों को एक नियम के साथ जाता है: सभी सेट काम के लिए इसका उपयोग करें
- DPO साइन-ऑफ के बिना कोई प्रीसेट नहीं बदल सकता
हर व्यक्ति अब समान आउटपुट देता है। मर्ज किया गया सेट सुसंगत है। वार्षिक AI ऑडिट शून्य निष्कर्षों के साथ पास होता है। पिछले वर्ष असंगत सेट काम से तीन निष्कर्ष थे।
GDPR और AI Act
2026 के लिए अपडेट किया गया
EU AI Act अगस्त 2024 में पूरी तरह लागू हुआ। यह AI सिस्टम के लिए नियम जोड़ता है जो मॉडल काम के लिए व्यक्तिगत विवरणों का उपयोग करते हैं। उच्च-जोखिम AI सिस्टम को अपने सेट का दस्तावेज़ीकरण करना होगा, जिसमें कौन सा अनामीकरण लागू किया गया शामिल है।
GDPR अनुच्छेद 5(1)(b) — उद्देश्य सीमा नियम — स्पष्ट कानूनी आधार के बिना व्यक्तिगत विवरणों के उपयोग को रोकता है। CNIL के 2024 के मामले इस अंतर पर केंद्रित थे: एक सेवा के लिए एकत्र विवरण बिना वैध आधार या अनामीकरण के मॉडल काम के लिए उपयोग किए गए।
प्रीसेट दोनों नियम सेट को संतुष्ट करने में मदद करते हैं:
- प्रीसेट नाम और कॉन्फ़िगरेशन: दस्तावेज़ीकृत विधि
- प्रसंस्करण लॉग: विधि लागू की गई इसका प्रमाण
- DPO स्वीकृति: कॉन्फ़िगरेशन पर रिकॉर्ड किया गया साइन-ऑफ
यह दोनों कानूनों के लिए आवश्यक ऑडिट ट्रेल बनाता है। अनुच्छेद 10 दायित्वों के विवरण के लिए, देखें EU AI Act training data guide।
NLP मॉडल सेट के लिए प्रीसेट कॉन्फ़िगरेशन
अधिकांश NLP मॉडल सेट में शामिल करने के लिए प्रकार:
- PERSON — समान नामों से Replace करें
- EMAIL_ADDRESS — सिंथेटिक पते से Replace करें
- PHONE_NUMBER — सिंथेटिक नंबर से Replace करें
- CREDIT_CARD / IBAN — Replace या Redact
- LOCATION — यदि स्थान मायने रखता है तो समान स्थानों से Replace करें; नहीं तो Redact
- DATE_OF_BIRTH — Redact; आयु समूहन अक्सर आवश्यक होती है
अक्सर छोड़े जाने वाले प्रकार:
- सामान्य तारीखें — टाइमस्टैम्प अस्थायी मॉडलों की मदद करते हैं
- संगठन नाम — नामित-एंटिटी मॉडलों की मदद करते हैं
- URL — लिंक और संदर्भ मॉडलों की मदद करते हैं
ML लीड और DPO ये नियम अनुमोदित प्रीसेट में सेट करते हैं। टीम सदस्य इसे लागू करते हैं। वे कॉन्फ़िगरेशन विकल्प नहीं बनाते।
संस्थागत स्मृति के रूप में प्रीसेट
प्रीसेट से पहले। सही एंटिटी कॉन्फ़िगरेशन तीन डेटा वैज्ञानिकों के दिमाग में रहती थी। उन्होंने कंप्लायंस समीक्षा के माध्यम से काम किया था। दो Q3 में चले गए। ज्ञान उनके साथ चला गया।
प्रीसेट के बाद। कॉन्फ़िगरेशन "ML Dev — Customer Records v2.1" में रहती है। संस्करण लॉग दिखाता है कि यह कब बनाया गया, किसने स्वीकृत किया और v2.0 से क्या बदला। नए टीम सदस्य प्रीसेट का उपयोग करते हैं और इसमें निर्मित सभी ज्ञान पाते हैं।
संस्करण 2.1 ने एक समीक्षा के बाद IBAN डिटेक्शन जोड़ा जो इसे गायब पाया। संस्करण 2.0 फरवरी 2025 में स्वीकृत हुआ था। लॉग पूरा है।
प्रसंस्करण लॉग और DPO समीक्षा प्रवाह कैसे काम करते हैं, इसके लिए देखें GDPR ML training anonymization guide।
CNIL पैटर्न के विरुद्ध प्रीसेट
CNIL के 2024 के AI मामलों ने एक स्पष्ट पैटर्न स्थापित किया। वे न केवल यह पूछते हैं कि क्या हटाया गया बल्कि यह भी कि इसे कैसे नियंत्रित किया गया। DPO स्वीकृति रिकॉर्ड और प्रसंस्करण लॉग के साथ एक साझा प्रीसेट सीधे इसका जवाब देता है।
तदर्थ कॉन्फ़िगरेशन नहीं देता। CNIL तर्क का पालन करने वाले अन्य EU DPA मामलों में वही अंतर मौजूद है। CNIL AI दृष्टिकोण के बारे में अधिक के लिए, देखें CNIL GDPR AI compliance guide।
निष्कर्ष
दस्तावेज़ टीम सदस्यों को बताते हैं कि क्या करना है। प्रीसेट इसे हर बार उसी तरह करना आसान — और लागू करने योग्य — बनाते हैं।
ML मॉडल सेट के लिए, संगति एक कानूनी आवश्यकता और एक तकनीकी दोनों है। प्रीसेट एक साथ दोनों पूरे करता है।
AI प्रथाओं को देखने वाले DPA समान अनामीकरण का साक्ष्य चाहते हैं। सभी सेट काम में उसी तरह लागू एक प्रीसेट आपका सबसे स्पष्ट प्रमाण है जो आप दे सकते हैं।