ब्लॉग पर वापस जाएँतकनीकी

GDPR-अनुरूप ML प्रशिक्षण डेटा: कोड लिखे बिना 10,000...

GDPR व्यक्तिगत डेटा का उपयोग ML प्रशिक्षण के लिए इसके मूल संग्रह के उद्देश्य से परे प्रतिबंधित करता है। डेटा वैज्ञानिक जो आकस्मिक Python स्क्रिप्ट...

April 19, 20267 मिनट पढ़ें
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

GDPR-अनुरूप ML प्रशिक्षण डेटा: कोड लिखे बिना 10,000 रिकॉर्ड का अनामकरण

हर डेटा विज्ञान टीम जो GDPR-संबंधित डेटा चला रही है, ने इस स्क्रिप्ट का कुछ संस्करण लिखा है:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)

यह GDPR अनुपालन नहीं है। यह ईमेल पते का प्रतिस्थापन है। डेटासेट में अभी भी नाम, फोन नंबर, चिकित्सा रिकॉर्ड आईडी और दर्जनों अन्य PII श्रेणियाँ हैं जो अनुपालन विफलताओं का कारण बनेंगी।

"मैंने ईमेल का अनामकरण किया" और "यह डेटासेट ML प्रशिक्षण के लिए GDPR-अनुरूप है" के बीच का अंतर बड़ा, महत्वपूर्ण और नियमित रूप से कम आंका जाता है।

GDPR ML प्रशिक्षण डेटा उपयोग को क्यों प्रतिबंधित करता है

GDPR का उद्देश्य सीमा सिद्धांत (अनुच्छेद 5(1)(b)) कहता है कि व्यक्तिगत डेटा को निर्दिष्ट, स्पष्ट और वैध उद्देश्यों के लिए एकत्र किया जा सकता है और उन उद्देश्यों के साथ असंगत तरीके से आगे संसाधित नहीं किया जा सकता।

आदेश पूर्ति के लिए एकत्र किया गया ग्राहक डेटा अनुशंसा मॉडल को प्रशिक्षित करने के उद्देश्य से नहीं एकत्र किया गया था। उपचार के लिए एकत्र किया गया स्वास्थ्य रिकॉर्ड डेटा पुनः प्रवेश भविष्यवाणी मॉडल को प्रशिक्षित करने के लिए एकत्र नहीं किया गया था। उत्पाद फीडबैक के लिए एकत्र किया गया सर्वेक्षण प्रतिक्रिया डेटा भावना विश्लेषण मॉडल को प्रशिक्षित करने के लिए एकत्र नहीं किया गया था।

इस डेटा का ML प्रशिक्षण के लिए उपयोग करने के लिए या तो आवश्यक है:

  1. ML प्रशिक्षण उद्देश्य के लिए प्रत्येक डेटा विषय से स्पष्ट सहमति (संचालनात्मक रूप से जटिल, अक्सर पूर्वव्यापी रूप से असंभव)
  2. वैधता का मूल्यांकन दिखाते हुए कि प्रशिक्षण उद्देश्य मूल संग्रह के साथ संगत है (कानूनी रूप से अनिश्चित, DPA-निर्भर)
  3. अनामकरण — PII को हटाना या प्रतिस्थापित करना ताकि डेटा अब GDPR के तहत व्यक्तिगत डेटा न हो

सही अनामकरण कम प्रतिरोध और सबसे अधिक कानूनी निश्चितता का मार्ग है। चुनौती इसे सही और लगातार करना है।

आकस्मिक अनामकरण स्क्रिप्ट की समस्या

डेटा विज्ञान टीमें प्रत्येक नए डेटासेट के लिए एक बार की Python स्क्रिप्ट लिखकर समस्याओं को बढ़ा रही हैं:

अपूर्ण कवरेज: एक स्क्रिप्ट जो एक डेटासेट के स्कीमा को संभालने के लिए लिखी गई है, पिछले स्कीमा अपडेट के बाद जोड़े गए कॉलम में PII को छोड़ देती है। 6 महीने पहले जोड़ा गया नैदानिक नोट्स क्षेत्र: regex पैटर्न में नहीं। ग्राहक मध्य नाम क्षेत्र: regex केवल FIRST_NAME और LAST_NAME पैटर्न को संभालता है।

डेटासेट के बीच असंगति: डेटासेट A को script_v1.py के साथ अनामित किया गया। डेटासेट B को script_v3.py के साथ अनामित किया गया। डेटासेट C को एक अलग टीम के सदस्य द्वारा अनामित किया गया जिसने script_v3.py के बारे में नहीं जाना। एकीकृत प्रशिक्षण डेटासेट में तीन अलग-अलग अनामकरण विधियाँ हैं। DPO इसे प्रमाणित नहीं कर सकता।

कोई ऑडिट ट्रेल नहीं: स्क्रिप्ट चली। इसने क्या बदला? कौन सी संस्थाएँ पाई गईं? किस पंक्तियों में? बिना प्रोसेसिंग मेटाडेटा के, अनुपालन दस्तावेज़ीकरण असंभव है। जब एक DPA ऑडिटर पूछता है "आपको कैसे पता है कि यह प्रशिक्षण डेटासेट अनामित है?", "हमने एक Python स्क्रिप्ट चलाई" संतोषजनक उत्तर नहीं है।

मॉडल ड्रिफ्ट: regex पैटर्न जो 2023 डेटा पर काम करते थे, 2024 डेटा में पेश किए गए नए पहचानकर्ता प्रारूपों का पता नहीं लगाते (नया SSN प्रारूप, विभिन्न ईमेल डोमेन पैटर्न, विकसित होते फोन नंबर प्रारूप)। स्क्रिप्ट स्वयं को अपडेट नहीं करती हैं।

बैच प्रोसेसिंग दृष्टिकोण

एक स्वास्थ्य सेवा AI कंपनी की डेटा विज्ञान टीम को 8,000 रोगी रिकॉर्ड का अनामकरण करना है इससे पहले कि उनकी अमेरिकी टीम उन्हें EU कार्यालय से एक्सेस कर सके (Schrems II सीमा पार डेटा स्थानांतरण प्रतिबंध लागू होता है)।

पारंपरिक दृष्टिकोण: एक डेटा इंजीनियर एक कस्टम Python अनामकरण स्क्रिप्ट लिखता है। समय: 2-3 दिन विकास, 1-2 दिन DPO के साथ परीक्षण और समीक्षा, 1 दिन पुनरावृत्ति। कुल: 4-6 दिन। ML परियोजना की समयसीमा खिसक जाती है।

बैच प्रोसेसिंग दृष्टिकोण:

  1. 8,000 रिकॉर्ड को CSV (मानक डेटा विज्ञान प्रारूप) के रूप में निर्यात करें
  2. बैच प्रोसेसिंग में अपलोड करें
  3. संस्थाओं के प्रकार कॉन्फ़िगर करें: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. विधि चुनें: प्रतिस्थापित करें (डेटासेट संरचना को बनाए रखने के लिए यथार्थवादी नकली डेटा के साथ प्रतिस्थापित करता है)
  5. प्रोसेस करें: 8,000 रिकॉर्ड के लिए 45 मिनट
  6. अनामित CSV डाउनलोड करें
  7. DPO प्रोसेसिंग मेटाडेटा की समीक्षा करता है (प्रत्येक रिकॉर्ड में पाई गई संस्थाएँ, लागू विधियाँ): 2 घंटे
  8. DPO अनुमोदित करता है, डेटा साझा करना आगे बढ़ता है

कुल समय: 45 मिनट प्रोसेसिंग + 2 घंटे DPO समीक्षा बनाम 4-6 दिन इंजीनियरिंग। ML समयसीमा ट्रैक पर रहती है।

ML प्रशिक्षण डेटा के लिए प्रतिस्थापित करें बनाम रेडेक्ट करें

अनामकरण विधि का चयन ML उपयोगिता के लिए महत्वपूर्ण है:

रेडेक्ट (काले बार / प्लेसहोल्डर प्रतिस्थापन): PII को [REDACTED] या समान टोकन के साथ प्रतिस्थापित करता है। परिणामस्वरूप डेटासेट में PII के स्थान पर लगातार प्लेसहोल्डर टोकन होते हैं। PII का पता लगाने के लिए प्रशिक्षित NLP मॉडलों के लिए, यह एक लेबल वाला डेटासेट बनाता है। डाउनस्ट्रीम कार्यों (भावना, वर्गीकरण, अनुशंसा) पर प्रशिक्षित मॉडलों के लिए, [REDACTED] टोकन प्राकृतिक भाषा मॉडलिंग को बाधित करता है — मॉडल सीखता है कि [REDACTED] एक विशेष टोकन है न कि वास्तविक नामों और मानों के वितरण से सीखता है।

प्रतिस्थापित करें (यथार्थवादी सिंथेटिक प्रतिस्थापन): "John Smith" को "David Chen" (एक यथार्थवादी लेकिन अलग नाम) के साथ प्रतिस्थापित करता है। ईमेल "jsmith@company.com" "dchen@synthetic.com" बन जाता है। परिणामस्वरूप डेटासेट प्राकृतिक भाषा वितरण बनाए रखता है — वाक्य संरचना, संस्थाओं का स्थान, सह-उपस्थिति पैटर्न — जो NLP मॉडल प्रशिक्षण के लिए महत्वपूर्ण हैं।

विशेष रूप से ML प्रशिक्षण डेटा के लिए, प्रतिस्थापित करना उचित विधि है। मॉडल विशेष नकली मानों की भविष्यवाणी करना नहीं सीखता (वे यादृच्छिक प्रतिस्थापन हैं), लेकिन यह नामों, ईमेल और अन्य संस्थाओं के पाठ में प्रकट होने के संरचनात्मक और संदर्भात्मक पैटर्न से सीखता है।

Schrems II और सीमा पार डेटा प्रवाह

Schrems II निर्णय (CJEU, 2020) ने EU-US प्राइवेसी शील्ड को अमान्य कर दिया, जिससे EU से US सर्वरों में डेटा स्थानांतरण के लिए अनिश्चितता पैदा हुई। डेटा विज्ञान पर व्यावहारिक प्रभाव: EU-उत्पत्ति प्रशिक्षण डेटा को US-आधारित ML अवसंरचना (AWS US-East, GCP US-Central) पर उचित स्थानांतरण सुरक्षा के बिना नहीं भेजा जा सकता।

उचित सुरक्षा में शामिल हैं:

  • स्थानांतरण प्रभाव मूल्यांकन के साथ मानक संविदात्मक धाराएँ (SCCs)
  • समूह के भीतर स्थानांतरण के लिए बाध्यकारी कॉर्पोरेट नियम (BCRs)
  • अनामित डेटा के लिए अपवाद: उचित रूप से अनामित डेटा GDPR के तहत व्यक्तिगत डेटा नहीं है और स्थानांतरण प्रतिबंधों के अधीन नहीं है

EU-उत्पत्ति डेटा के साथ US-आधारित ML अवसंरचना का उपयोग करने वाली टीमों के लिए, उचित अनामकरण पूरी तरह से Schrems II समस्या को समाप्त करता है। अनामित डेटासेट अब व्यक्तिगत डेटा नहीं है — इसे किसी भी अवसंरचना पर स्थानांतरित, संग्रहीत और संसाधित किया जा सकता है बिना स्थानांतरण तंत्र की आवश्यकताओं के।

DPO अनुमोदन के लिए दस्तावेज़ीकरण

DPO को अनुमोदन के लिए अनामित प्रशिक्षण डेटा प्रस्तुत करते समय, प्रदान करें:

  1. स्रोत डेटा विवरण: मूल डेटासेट क्या था, इसका संग्रह उद्देश्य क्या था, इसमें कौन-कौन से व्यक्तिगत डेटा श्रेणियाँ थीं?

  2. अनामकरण कॉन्फ़िगरेशन: कौन से संस्थाओं के प्रकार का पता लगाया गया और प्रतिस्थापित किया गया? कौन सी विधि लागू की गई?

  3. प्रोसेसिंग मेटाडेटा: प्रत्येक रिकॉर्ड में पाए गए संस्थाओं की संख्या, पहचान विश्वास स्कोर, कुल रिकॉर्ड संसाधित

  4. अवशिष्ट जोखिम मूल्यांकन: क्या संभावना है कि कोई व्यक्ति अनामित डेटासेट से पुनः पहचाना जा सके? प्रतिस्थापन विधि के साथ 285+ संस्थाओं के प्रकार जो संरचित पाठ पर लागू होते हैं, इस संभावना बहुत कम होती है अधिकांश प्रशिक्षण डेटासेट के लिए।

  5. इच्छित उपयोग: कौन सा ML मॉडल प्रशिक्षित किया जाएगा? प्रशिक्षण का उद्देश्य क्या है?

बैच प्रोसेसिंग से प्रोसेसिंग मेटाडेटा स्वचालित रूप से बिंदु 2-3 प्रदान करता है। बिंदु 1, 4, और 5 के लिए डेटा वैज्ञानिक की इनपुट की आवश्यकता होती है।

निष्कर्ष

GDPR-अनुरूप ML प्रशिक्षण डेटा बिना आकस्मिक स्क्रिप्टिंग, बिना बहु-दिन इंजीनियरिंग देरी, और बिना मॉडल प्रशिक्षण के लिए डेटासेट उपयोगिता का बलिदान किए प्राप्त किया जा सकता है। प्रतिस्थापन अनामकरण विधि प्राकृतिक भाषा की विशेषताओं को बनाए रखती है जो डेटा को NLP मॉडल प्रशिक्षण के लिए उपयोगी बनाती है जबकि GDPR देनदारी उत्पन्न करने वाले व्यक्तिगत डेटा की विशेषताओं को हटा देती है।

45 मिनट की बैच प्रोसेसिंग समयसीमा-देरी अनुपालन समीक्षा और सीधे DPO अनुमोदन के बीच का अंतर है।

स्रोत:

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।