एक स्क्रिप्ट पर्याप्त नहीं है

हर डेटा साइंस टीम ने कभी न कभी इस तरह कुछ लिखा है:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

यह केवल ईमेल पतों को बदलता है। बस इतना ही। डेटासेट में अभी भी नाम, फोन नंबर और मेडिकल ID मौजूद हैं। यह GDPR ऑडिट में फेल हो जाएगा।

"मैंने ईमेल अज्ञात कर दिए" और "यह डेटासेट GDPR-अनुपालक है" के बीच की खाई बहुत बड़ी है। टीमें इसे बार-बार कम आंकती हैं।

GDPR अनुच्छेद 5(1)(b) मुख्य नियम है। इसे उद्देश्य सीमा सिद्धांत कहा जाता है। व्यक्तिगत रिकॉर्ड का उपयोग केवल उसी उद्देश्य के लिए किया जा सकता है जिसके लिए उन्हें एकत्र किया गया था।

ग्राहक ऑर्डर ऑर्डर पूर्ति के लिए एकत्र किए गए थे। अनुशंसा मॉडल प्रशिक्षण के लिए नहीं। स्वास्थ्य रिकॉर्ड उपचार के लिए एकत्र किए गए थे। पुनः प्रवेश मॉडल प्रशिक्षण के लिए नहीं। सर्वेक्षण उत्तर उत्पाद प्रतिक्रिया के लिए एकत्र किए गए थे। सेंटिमेंट क्लासीफायर प्रशिक्षण के लिए नहीं।

ML प्रशिक्षण के लिए उन रिकॉर्डों का उपयोग करने के लिए टीम को तीन में से एक चीज़ चाहिए:

ML उद्देश्य के लिए प्रत्येक व्यक्ति से स्पष्ट सहमति — प्राप्त करना कठिन, अक्सर पूर्वव्यापी रूप से असंभव
एक वैध हित मूल्यांकन जो दर्शाए कि ML उपयोग संगत है — कानूनी रूप से अनिश्चित, DPA-निर्भर
अज्ञातीकरण — व्यक्तिगत विवरणों को बदलना या हटाना ताकि डेटासेट GDPR के तहत व्यक्तिगत न रहे

उचित अज्ञातीकरण सबसे अधिक कानूनी निश्चितता देता है। चुनौती इसे हर बार सही तरीके से करने की है।

वन-ऑफ स्क्रिप्ट की समस्या

जो टीमें प्रत्येक डेटासेट के लिए एक नई Python स्क्रिप्ट लिखती हैं, वे जटिल समस्याएं पैदा करती हैं।

अधूरा कवरेज। एक स्कीमा के लिए बनाई गई स्क्रिप्ट नए फ़ील्ड छोड़ देती है। छह महीने पहले जोड़ा गया क्लिनिकल नोट्स कॉलम? regex में नहीं है। मिडिल नेम फ़ील्ड? स्क्रिप्ट केवल पहले और अंतिम नाम के पैटर्न संभालती है।

कोई संगति नहीं। डेटासेट A को script_v1 से प्रोसेस किया गया। डेटासेट B ने script_v3 का उपयोग किया। डेटासेट C एक अलग टीम सदस्य ने प्रोसेस किया। मर्ज किए गए प्रशिक्षण सेट में तीन अलग-अलग विधियाँ लागू हैं। एक DPO इसे प्रमाणित नहीं कर सकता।

कोई ऑडिट ट्रेल नहीं। स्क्रिप्ट चली। इसने क्या बदला? कौन सी entities मिलीं? प्रोसेसिंग रिकॉर्ड के बिना, अनुपालन असंभव है। जब DPA ऑडिटर पूछता है "आप कैसे जानते हैं कि यह प्रशिक्षण सेट साफ है?", तो "हमने एक Python स्क्रिप्ट चलाई" का जवाब पर्याप्त नहीं है।

मॉडल ड्रिफ्ट। Regex पैटर्न जो 2023 में काम करते थे, 2024 के नए पहचानकर्ता प्रारूप छोड़ देते हैं। स्क्रिप्ट खुद को अपडेट नहीं करतीं।

एक बैच प्रोसेसिंग वॉकथ्रू

एक हेल्थकेयर AI टीम को 8,000 रोगी रिकॉर्ड अज्ञात करने की जरूरत है। US टीम को EU कार्यालय से एक्सेस की जरूरत है। Schrems II लागू होता है — EU-मूल के रिकॉर्ड उचित सुरक्षा उपायों के बिना US बुनियादी ढांचे पर नहीं जा सकते।

पारंपरिक मार्ग: एक डेटा इंजीनियर एक कस्टम स्क्रिप्ट लिखता है। दो से तीन दिन का विकास। एक से दो दिन की DPO समीक्षा। एक दिन का पुनरावृत्ति। कुल: चार से छह दिन। ML प्रोजेक्ट पिछड़ जाता है।

बैच प्रोसेसिंग मार्ग:

8,000 रिकॉर्ड CSV के रूप में एक्सपोर्ट करें
बैच प्रोसेसिंग पर अपलोड करें
entity प्रकार सेट करें: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
विधि चुनें: Replace (संरचना संरक्षित करने के लिए यथार्थवादी सिंथेटिक मूल्यों को प्रतिस्थापित करता है)
प्रोसेस: 8,000 रिकॉर्ड के लिए 45 मिनट
साफ CSV डाउनलोड करें
DPO प्रोसेसिंग मेटाडेटा की समीक्षा करता है — प्रति रिकॉर्ड entities मिलीं, लागू विधियाँ: 2 घंटे
DPO मंजूरी देता है। ट्रांसफर आगे बढ़ता है।

कुल समय: 45 मिनट और DPO समीक्षा के 2 घंटे। चार से छह दिनों के बजाय।

EU AI Act प्रशिक्षण गाइड देखें EU AI Act training guide इस बारे में कि ये समान कदम Article 10 दायित्वों को कैसे पूरा करते हैं।

ML उपयोग के लिए Replace बनाम Redact

मॉडल गुणवत्ता के लिए अज्ञातीकरण विधि मायने रखती है।

Redact PII को [REDACTED] जैसे टोकन से बदलता है। यह PII डिटेक्शन मॉडल के लिए काम करता है। अन्य कार्यों के लिए — सेंटिमेंट, वर्गीकरण, अनुशंसा — यह नुकसान करता है। मॉडल सीखता है कि [REDACTED] एक विशेष टोकन है। यह नामों और मूल्यों के प्राकृतिक वितरण से नहीं सीख सकता।

Replace "John Smith" को "David Chen" से बदलता है। "jsmith@company.com" को "dchen@synthetic.com" से बदलता है। संरचना बरकरार रहती है। entity placement, सह-घटना पैटर्न, वाक्य प्रवाह — सभी संरक्षित। मॉडल यथार्थवादी संदर्भ से सीखता है।

ML प्रशिक्षण सेट के लिए, Replace सही विकल्प है। मॉडल नकली मूल्य नहीं सीखता। यह उनके आसपास के पैटर्न सीखता है। यही मायने रखता है।

Schrems II और क्रॉस-बॉर्डर ट्रांसफर

Schrems II फैसले (CJEU, 2020) ने EU-US Privacy Shield को अमान्य कर दिया। EU-मूल के रिकॉर्ड उचित ट्रांसफर सुरक्षा उपायों के बिना US ML बुनियादी ढांचे — AWS US-East, GCP US-Central — पर नहीं जा सकते।

तीन मुख्य सुरक्षा उपाय हैं:

Transfer Impact Assessment के साथ Standard Contractual Clauses
एक कंपनी समूह के भीतर ट्रांसफर के लिए Binding Corporate Rules
अज्ञात रिकॉर्ड के लिए छूट — उचित रूप से अज्ञात फ़ाइलें GDPR के तहत व्यक्तिगत नहीं रहतीं और ट्रांसफर नियमों से मुक्त होती हैं

EU-मूल सेट के साथ US बुनियादी ढांचे का उपयोग करने वाली टीमों के लिए, उचित अज्ञातीकरण Schrems II समस्या को हटा देता है। साफ डेटासेट व्यक्तिगत नहीं है। यह स्वतंत्र रूप से आगे बढ़ सकता है।

बैच अज्ञातीकरण का यह सबसे मजबूत व्यावहारिक लाभ है। यह केवल GDPR को संतुष्ट नहीं करता। यह क्रॉस-बॉर्डर घर्षण को पूरी तरह से हटा देता है।

ट्रांसफर प्रतिबंधों के बारे में अधिक जानकारी के लिए, GDPR purpose limitation guide देखें।

DPO को क्या देना है

DPO अनुमोदन के लिए एक साफ प्रशिक्षण सेट जमा करते समय, ये पाँच आइटम शामिल करें:

स्रोत विवरण। मूल डेटासेट क्या था? संग्रह उद्देश्य क्या था? इसमें कौन सी व्यक्तिगत श्रेणियाँ थीं?
अज्ञातीकरण कॉन्फिग। कौन से entity प्रकार का पता लगाया और प्रतिस्थापित किया गया? कौन सी विधि लागू की गई?
प्रोसेसिंग मेटाडेटा। प्रति रिकॉर्ड entity गिनती, विश्वास स्कोर, कुल रिकॉर्ड प्रोसेस किए गए।
अवशिष्ट जोखिम मूल्यांकन। किसी व्यक्ति की पुनः पहचान की क्या संभावना है? संरचित पाठ पर 285+ entity प्रकारों के साथ Replace-विधि अज्ञातीकरण के लिए, यह संभावना बहुत कम है।
इच्छित उपयोग। कौन सा मॉडल प्रशिक्षित किया जाएगा? प्रशिक्षण उद्देश्य क्या है?

बैच प्रोसेसिंग आइटम 2 और 3 स्वचालित रूप से प्रदान करती है। आइटम 1, 4 और 5 डेटा वैज्ञानिक से आते हैं।

प्रोसेसिंग मेटाडेटा कैसे लौटाया जाता है, इसके लिए anonym.legal batch API देखें।

आपको क्या मिलता है

GDPR-अनुपालक ML सेट कस्टम स्क्रिप्ट, बहु-दिन की देरी और मॉडल गुणवत्ता खोए बिना प्राप्त किए जा सकते हैं।

Replace विधि प्राकृतिक भाषा गुणों को बनाए रखती है जो NLP प्रशिक्षण के लिए मायने रखते हैं। यह व्यक्तिगत विवरण हटाती है जो GDPR जोखिम पैदा करते हैं।

45 मिनट की बैच प्रोसेसिंग विलंबित अनुपालन समीक्षा और सीधी DPO साइन-ऑफ के बीच का अंतर है।

स्रोत

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

GDPR ML प्रशिक्षण डेटा अज्ञातीकरण

एक स्क्रिप्ट पर्याप्त नहीं है

वन-ऑफ स्क्रिप्ट की समस्या

एक बैच प्रोसेसिंग वॉकथ्रू

ML उपयोग के लिए Replace बनाम Redact

Schrems II और क्रॉस-बॉर्डर ट्रांसफर

DPO को क्या देना है

आपको क्या मिलता है

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

GDPR ML प्रशिक्षण डेटा अज्ञातीकरण

एक स्क्रिप्ट पर्याप्त नहीं है

GDPR ML प्रशिक्षण उपयोग को क्यों सीमित करता है

वन-ऑफ स्क्रिप्ट की समस्या

एक बैच प्रोसेसिंग वॉकथ्रू

ML उपयोग के लिए Replace बनाम Redact

Schrems II और क्रॉस-बॉर्डर ट्रांसफर

DPO को क्या देना है

आपको क्या मिलता है

स्रोत

संबंधित लेख

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow