पुनरुत्पादनीय गोपनीयता: ML टीमों को केवल दस्तावेज़ नहीं, प्रीसेट क्यों चाहिए

DPO ने अनामीकरण योजना स्वीकृत की। यह चार आइटम कवर करती है: नाम, ईमेल, फोन नंबर और जन्मतिथि। विधि Replace है। योजना चार पृष्ठ की है और कंप्लायंस विकी में रहती है।

बारह डेटा वैज्ञानिकों ने किकऑफ पर इसे पढ़ा। प्रत्येक ने अपने दम पर टूल सेट किया। कुछ ने राष्ट्रीय ID जोड़े। कुछ ने IP पते जोड़े। कुछ ने Redact पर स्विच किया। तीन महीने बाद, सेट सुसंगत नहीं हैं।

CNIL ने 2024 में कई AI फर्मों की जाँच की। मुद्दा: मॉडल सेट में व्यक्तिगत विवरणों का अनुचित उपयोग। उन्होंने केवल यह नहीं पूछा कि अनामीकरण हुआ था या नहीं। उन्होंने पूछा कि इसे कितनी सुसंगतता से लागू किया गया था।

दस्तावेज़ आवश्यक हैं। वे पर्याप्त नहीं हैं। समाधान प्रीसेट है।

ML मॉडल सेट को अपनी कॉन्फ़िगरेशन की आवश्यकता क्यों है

मॉडल सेट बनाने की अद्वितीय आवश्यकताएँ हैं। सामान्य दस्तावेज़ अनामीकरण उन्हें साझा नहीं करता।

Redact नहीं, Replace। उन मॉडलों को [REDACTED] बनने वाले नामों पर प्रशिक्षित किया जाता है जो उस टोकन को नाम-स्थिति मार्कर के रूप में सीखते हैं। यह मॉडल को नुकसान पहुँचाता है। Replace "John Smith" को "David Chen" से बदलता है। मॉडल वास्तविक नाम पैटर्न देखता है। वह मास्क टोकन नहीं देखता।

सभी रिकॉर्ड के लिए समान प्रक्रिया। एक सेट जहाँ 70% नाम Replace हैं और 30% [REDACTED] हैं मिश्रित संकेत भेजता है। प्रत्येक रिकॉर्ड को समान चरणों से गुजरना होगा।

समान एंटिटी सूची। यदि सेट में स्वास्थ्य विवरण हैं, तो कुछ रिकॉर्ड में नाम हटाना लेकिन जन्मतिथि छोड़ना अंतराल बनाता है। सभी बारह डेटा वैज्ञानिकों को समान प्रकार हटाने होंगे।

अति-निष्कासन नहीं। टाइमस्टैम्प वाली तारीखें हटाना — जन्मतिथि नहीं — बिना कंप्लायंस लाभ के सेट गुणवत्ता कम करता है। अनुमोदित प्रीसेट बिल्कुल कहता है कि कौन से आइटम हटाने हैं।

दोहराने योग्य आउटपुट। यदि किसी सेट को फिर से चलाना हो — कहें, एक छूटी हुई एंटिटी प्रकार पाए जाने के बाद — प्रीसेट हर बार समान परिणाम देता है। तदर्थ कॉन्फ़िगरेशन नहीं देते।

बारह डेटा वैज्ञानिक की समस्या

यूरोप में एक फिनटेक ML टीम ग्राहक लॉग से सेट का उपयोग करती है। DPO ने उद्देश्य स्वीकृत किया — धोखाधड़ी पहचान — एक नियम के साथ: मॉडल काम शुरू होने से पहले सभी ग्राहक नाम, ईमेल, फोन नंबर और भुगतान ID Replace होने चाहिए।

प्रीसेट के बिना:

व्यक्ति 1 नाम, ईमेल और फोन नंबर हटाता है — लेकिन भुगतान ID चूकता है
व्यक्ति 2 में भुगतान ID हैं लेकिन Replace के बजाय Redact उपयोग करता है
व्यक्ति 3 योजना दस्तावेज़ का ठीक पालन करता है
व्यक्ति 4–12 भिन्न होते हैं

मर्ज किया गया सेट आंशिक रूप से गैर-अनुपालन है और आंशिक रूप से अति-प्रसंस्कृत। DPO इसे प्रमाणित नहीं कर सकता।

DPO-अनुमोदित प्रीसेट के साथ:

DPO सटीक एंटिटी प्रकार और Replace विधि के साथ "ML Dev — Fraud Detection" बनाता है
प्रीसेट सभी बारह लोगों को एक नियम के साथ जाता है: सभी सेट काम के लिए इसका उपयोग करें
DPO साइन-ऑफ के बिना कोई प्रीसेट नहीं बदल सकता

हर व्यक्ति अब समान आउटपुट देता है। मर्ज किया गया सेट सुसंगत है। वार्षिक AI ऑडिट शून्य निष्कर्षों के साथ पास होता है। पिछले वर्ष असंगत सेट काम से तीन निष्कर्ष थे।

2026 के लिए अपडेट किया गया

EU AI Act अगस्त 2024 में पूरी तरह लागू हुआ। यह AI सिस्टम के लिए नियम जोड़ता है जो मॉडल काम के लिए व्यक्तिगत विवरणों का उपयोग करते हैं। उच्च-जोखिम AI सिस्टम को अपने सेट का दस्तावेज़ीकरण करना होगा, जिसमें कौन सा अनामीकरण लागू किया गया शामिल है।

GDPR अनुच्छेद 5(1)(b) — उद्देश्य सीमा नियम — स्पष्ट कानूनी आधार के बिना व्यक्तिगत विवरणों के उपयोग को रोकता है। CNIL के 2024 के मामले इस अंतर पर केंद्रित थे: एक सेवा के लिए एकत्र विवरण बिना वैध आधार या अनामीकरण के मॉडल काम के लिए उपयोग किए गए।

प्रीसेट दोनों नियम सेट को संतुष्ट करने में मदद करते हैं:

प्रीसेट नाम और कॉन्फ़िगरेशन: दस्तावेज़ीकृत विधि
प्रसंस्करण लॉग: विधि लागू की गई इसका प्रमाण
DPO स्वीकृति: कॉन्फ़िगरेशन पर रिकॉर्ड किया गया साइन-ऑफ

यह दोनों कानूनों के लिए आवश्यक ऑडिट ट्रेल बनाता है। अनुच्छेद 10 दायित्वों के विवरण के लिए, देखें EU AI Act training data guide।

NLP मॉडल सेट के लिए प्रीसेट कॉन्फ़िगरेशन

अधिकांश NLP मॉडल सेट में शामिल करने के लिए प्रकार:

PERSON — समान नामों से Replace करें
EMAIL_ADDRESS — सिंथेटिक पते से Replace करें
PHONE_NUMBER — सिंथेटिक नंबर से Replace करें
CREDIT_CARD / IBAN — Replace या Redact
LOCATION — यदि स्थान मायने रखता है तो समान स्थानों से Replace करें; नहीं तो Redact
DATE_OF_BIRTH — Redact; आयु समूहन अक्सर आवश्यक होती है

अक्सर छोड़े जाने वाले प्रकार:

सामान्य तारीखें — टाइमस्टैम्प अस्थायी मॉडलों की मदद करते हैं
संगठन नाम — नामित-एंटिटी मॉडलों की मदद करते हैं
URL — लिंक और संदर्भ मॉडलों की मदद करते हैं

ML लीड और DPO ये नियम अनुमोदित प्रीसेट में सेट करते हैं। टीम सदस्य इसे लागू करते हैं। वे कॉन्फ़िगरेशन विकल्प नहीं बनाते।

संस्थागत स्मृति के रूप में प्रीसेट

प्रीसेट से पहले। सही एंटिटी कॉन्फ़िगरेशन तीन डेटा वैज्ञानिकों के दिमाग में रहती थी। उन्होंने कंप्लायंस समीक्षा के माध्यम से काम किया था। दो Q3 में चले गए। ज्ञान उनके साथ चला गया।

प्रीसेट के बाद। कॉन्फ़िगरेशन "ML Dev — Customer Records v2.1" में रहती है। संस्करण लॉग दिखाता है कि यह कब बनाया गया, किसने स्वीकृत किया और v2.0 से क्या बदला। नए टीम सदस्य प्रीसेट का उपयोग करते हैं और इसमें निर्मित सभी ज्ञान पाते हैं।

संस्करण 2.1 ने एक समीक्षा के बाद IBAN डिटेक्शन जोड़ा जो इसे गायब पाया। संस्करण 2.0 फरवरी 2025 में स्वीकृत हुआ था। लॉग पूरा है।

प्रसंस्करण लॉग और DPO समीक्षा प्रवाह कैसे काम करते हैं, इसके लिए देखें GDPR ML training anonymization guide।

CNIL पैटर्न के विरुद्ध प्रीसेट

CNIL के 2024 के AI मामलों ने एक स्पष्ट पैटर्न स्थापित किया। वे न केवल यह पूछते हैं कि क्या हटाया गया बल्कि यह भी कि इसे कैसे नियंत्रित किया गया। DPO स्वीकृति रिकॉर्ड और प्रसंस्करण लॉग के साथ एक साझा प्रीसेट सीधे इसका जवाब देता है।

तदर्थ कॉन्फ़िगरेशन नहीं देता। CNIL तर्क का पालन करने वाले अन्य EU DPA मामलों में वही अंतर मौजूद है। CNIL AI दृष्टिकोण के बारे में अधिक के लिए, देखें CNIL GDPR AI compliance guide।

निष्कर्ष

दस्तावेज़ टीम सदस्यों को बताते हैं कि क्या करना है। प्रीसेट इसे हर बार उसी तरह करना आसान — और लागू करने योग्य — बनाते हैं।

ML मॉडल सेट के लिए, संगति एक कानूनी आवश्यकता और एक तकनीकी दोनों है। प्रीसेट एक साथ दोनों पूरे करता है।

AI प्रथाओं को देखने वाले DPA समान अनामीकरण का साक्ष्य चाहते हैं। सभी सेट काम में उसी तरह लागू एक प्रीसेट आपका सबसे स्पष्ट प्रमाण है जो आप दे सकते हैं।

स्रोत

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

पुनरुत्पादनीय गोपनीयता: ML प्रीसेट

पुनरुत्पादनीय गोपनीयता: ML टीमों को केवल दस्तावेज़ नहीं, प्रीसेट क्यों चाहिए

ML मॉडल सेट को अपनी कॉन्फ़िगरेशन की आवश्यकता क्यों है

बारह डेटा वैज्ञानिक की समस्या

NLP मॉडल सेट के लिए प्रीसेट कॉन्फ़िगरेशन

संस्थागत स्मृति के रूप में प्रीसेट

CNIL पैटर्न के विरुद्ध प्रीसेट

निष्कर्ष

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

पुनरुत्पादनीय गोपनीयता: ML प्रीसेट

पुनरुत्पादनीय गोपनीयता: ML टीमों को केवल दस्तावेज़ नहीं, प्रीसेट क्यों चाहिए

ML मॉडल सेट को अपनी कॉन्फ़िगरेशन की आवश्यकता क्यों है

बारह डेटा वैज्ञानिक की समस्या

GDPR और AI Act

NLP मॉडल सेट के लिए प्रीसेट कॉन्फ़िगरेशन

संस्थागत स्मृति के रूप में प्रीसेट

CNIL पैटर्न के विरुद्ध प्रीसेट

निष्कर्ष

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow