जब नेटवर्क का कोई रास्ता नहीं होता
एक डेटा वैज्ञानिक एक रक्षा फर्म में काम करती है। उसके पास 3,000 कर्मियों के रिकॉर्ड हैं। उसे नाम, सोशल सिक्योरिटी नंबर और क्लियरेंस स्तर हटाने हैं। तब वह CUI समझौते के तहत एक शोध भागीदार के साथ डेटा साझा कर सकती है।
उसके नेटवर्क में कोई इंटरनेट नहीं है। डिज़ाइन द्वारा।
वह हर वेब-आधारित टूल आज़माती है जो उसे मिल सकता है। हर एक बाहरी सर्वर को डेटा भेजता है। हर क्लाउड प्लेटफॉर्म को एक खाते और एक लाइव लिंक की जरूरत होती है। यहाँ तक कि "ऑन-प्रिमाइसेस" टूल भी अक्सर एक रिमोट लाइसेंस सर्वर को कॉल करते हैं।
यह एयर-गैप्ड डेप्लॉयमेंट की समस्या है। यह अधिकांश लोगों की अपेक्षा से कहीं अधिक टीमों को प्रभावित करती है।
ऑफलाइन PII हटाने की जरूरत किसे है
रक्षा फर्में और सरकारी एजेंसियाँ इसका सबसे अधिक सामना करती हैं। DISA का FedRAMP प्रोग्राम डेटा को अनुमोदित नेटवर्क सीमाओं के भीतर रखने की आवश्यकता है। ITAR तकनीकी डेटा को US-नियंत्रित सिस्टम तक सीमित करता है। JWICS और SIPRNet जैसे नेटवर्क डिज़ाइन द्वारा भौतिक रूप से कट ऑफ हैं।
लेकिन ऑफलाइन की जरूरत वर्गीकृत साइटों से बहुत आगे जाती है:
खंडित नेटवर्क वाले अस्पताल। PACS इमेजिंग सिस्टम, EHR प्लेटफॉर्म और शोध डेटाबेस अक्सर नीति के अनुसार बिना इंटरनेट वाले नेटवर्क पर बैठते हैं।
ट्रेडिंग फ्लोर और क्लियरिंग हाउस। प्रोप्राइटरी ट्रेडिंग सिस्टम और SWIFT-कनेक्टेड सिस्टम सख्त नेटवर्क कटऑफ उपयोग करते हैं।
औद्योगिक नियंत्रण प्रणाली। SCADA नेटवर्क और महत्वपूर्ण बुनियादी ढाँचा एयर गैप के साथ एक मूल सुरक्षा उपाय के रूप में चलते हैं। Stuxnet के बाद की सख्ती ने इसे मानक बना दिया।
यूरोपीय डेटा नियम। जर्मनी के Landesdatenschutzgesetze और समान EU कानूनों को संवेदनशील सरकारी और स्वास्थ्य रिकॉर्ड के लिए स्थानीय डेटा प्रसंस्करण की आवश्यकता है। TikTok पर मई 2025 में €530M का GDPR जुर्माना लगा। इसने चीन को डेटा ट्रांसफर को कवर किया। उस जुर्माने ने अधिक टीमों को स्थानीय टूल की ओर धकेला। लागू होने वाले GDPR ट्रांसफर नियमों के लिए हमारा अनुपालन अवलोकन देखें।
क्लाउड टूल एयर-गैप्ड नेटवर्क में क्यों विफल होते हैं
अधिकांश डेटा हटाने के टूल SaaS मॉडल का पालन करते हैं:
उपयोगकर्ता डिवाइस → HTTPS → विक्रेता API → NLP मॉडल → प्रतिक्रिया → उपयोगकर्ता डिवाइस
इस डिज़ाइन को प्रसंस्करण डिवाइस पर इंटरनेट पहुँच की जरूरत है। इसे विक्रेता के सर्वर पर भरोसे की जरूरत है। इसका मतलब है डेटा बाहरी नेटवर्क को पार करता है।
एयर-गैप्ड नेटवर्क पर, चरण एक भौतिक रूप से असंभव है। विनियमित वातावरण के लिए, चरण दो से चार में से प्रत्येक अनुपालन नियम तोड़ सकता है।
सेल्फ-होस्टेड Presidio सामान्य फॉलबैक है। लेकिन इसे Docker कौशल और Python सेटअप की आवश्यकता है। इसे spaCy मॉडल डाउनलोड की भी जरूरत है, जिसके लिए इंटरनेट पहुँच चाहिए। और इसे चल रहे IT समर्थन की आवश्यकता है। अधिकांश टीमों में यह सब नहीं है।
क्लाउड सुगमता और सेल्फ-होस्टेड जटिलता के बीच की खाई वही है जिसे स्थानीय डेस्कटॉप टूल भरते हैं।
स्थानीय PII हटाना कैसे काम करता है
एक अच्छा ऑफलाइन टूल अपनी जरूरत की हर चीज़ के साथ आता है:
बंडल NLP मॉडल। spaCy मॉडल (40–80 MB प्रत्येक) और नाम इकाई पहचान के लिए ट्रांसफॉर्मर मॉडल इंस्टॉलर का हिस्सा हैं। रन टाइम पर कोई डाउनलोड आवश्यक नहीं।
स्थानीय पहचान पाइपलाइन। Regex, NLP और ML सभी स्थानीय CPU पर चलते हैं — या GPU यदि उपलब्ध हो। anonym.legal के अंदर Presidio-आधारित इंजन किसी रन के दौरान कोई नेटवर्क कॉल नहीं करता।
एन्क्रिप्टेड स्थानीय वॉल्ट। कॉन्फ़िग, प्रीसेट और चाबियाँ स्थानीय रूप से संग्रहीत हैं। वॉल्ट AES-256-GCM एन्क्रिप्शन और Argon2id कुंजी व्युत्पत्ति उपयोग करता है। कोई क्लाउड सिंक नहीं। कोई रिमोट बैकअप नहीं। वॉल्ट डिवाइस पर रहता है।
स्थानीय फाइल I/O। इनपुट फाइलें स्थानीय स्टोरेज से आती हैं। आउटपुट फाइलें वापस स्थानीय स्टोरेज में जाती हैं। कोई डेटा किसी भी नेटवर्क इंटरफेस को पार नहीं करता।
छोटी हमले की सतह। डेस्कटॉप ऐप Tauri 2.0 (Rust-आधारित) उपयोग करता है। Tauri में Electron (Chromium-आधारित) टूल की तुलना में बहुत छोटी हमले की सतह है। इसका बाइनरी लगभग एक-दसवें आकार का है। यह डिफ़ॉल्ट रूप से कम OS API भी कॉल करता है।
तीन वास्तविक अनुपालन परिदृश्य
ITAR दस्तावेज़ — 500 फाइलें
एक रक्षा फर्म को लाइसेंस छूट के तहत एक विदेशी भागीदार के साथ तकनीकी दस्तावेज़ साझा करने होंगे। फाइलों में US व्यक्ति के नाम और कार्मिक डेटा हैं। दोनों को पहले हटाना होगा।
मुख्य जरूरतें: केवल क्लियर्ड वर्कस्टेशन पर प्रसंस्करण। क्लियर्ड नेटवर्क के बाहर कोई डेटा नहीं भेजा। यह दिखाने वाला ऑडिट ट्रेल कि काम हो गया। 500+ फाइलों के लिए बैच समर्थन।
डेस्कटॉप ऐप सभी 500+ DOCX फाइलों को बैच मोड में स्थानीय रूप से संभालता है। रन के दौरान कोई नेटवर्क कॉल नहीं की जाती। ऑडिट लॉग स्थानीय वॉल्ट में रहता है। आउटपुट ITAR लाइसेंस छूट की जरूरतें पूरी करता है।
जर्मन संघीय एजेंसी — शिकायत रिकॉर्ड
एक जर्मन संघीय एजेंसी को नागरिक शिकायत रिकॉर्ड से व्यक्तिगत डेटा हटाना होगा। फिर वह रिकॉर्ड एक शोध संस्थान को भेजती है। BfDI मार्गदर्शन गैर-सरकारी सिस्टम पर प्रसंस्करण को रोकता है।
डेस्कटॉप ऐप एजेंसी के Windows 11 वर्कस्टेशन पर चलता है। सभी प्रसंस्करण स्थानीय है। IT सुरक्षा टीम इसे ट्रैफिक निगरानी से पुष्टि करती है — रन के दौरान शून्य बाहरी कनेक्शन।
अस्पताल शोध — EHR De-ID
एक अस्पताल शोध टीम को क्लिनिकल ट्रायल के लिए मरीज़ रिकॉर्ड हटाने हैं। HIPAA Safe Harbor को 18 पहचानकर्ता प्रकार हटाने की आवश्यकता है। क्लिनिकल नेटवर्क में कोई इंटरनेट पहुँच नहीं है।
डेस्कटॉप ऐप CSV और JSON प्रारूप में EHR निर्यात के बैच प्रसंस्करण को संभालता है। Privacy Officer डेटासेट शोध भागीदारों को जाने से पहले Safe Harbor नियमों के खिलाफ आउटपुट की समीक्षा करता है।
ऑफलाइन टूल में क्या देखें
| क्षमता | यह क्यों मायने रखती है |
|---|---|
| इंस्टॉल के बाद पूरी तरह ऑफलाइन | प्रसंस्करण के दौरान कोई इंटरनेट निर्भरता नहीं |
| बंडल NLP मॉडल | कोई डाउनलोड चरण आवश्यक नहीं |
| बैच प्रसंस्करण | मैन्युअल काम के बिना बड़े वॉल्यूम संभालें |
| स्थानीय एन्क्रिप्टेड वॉल्ट | कॉन्फ़िग और चाबियों का सुरक्षित भंडारण |
| ऑडिट लॉग | अनुपालन समीक्षाओं के लिए आवश्यक रिकॉर्ड |
| Windows, macOS, Linux समर्थन | वर्गीकृत वर्कस्टेशन प्रकारों को कवर करता है |
| कोई टेलीमेट्री विकल्प नहीं | टेलीमेट्री के माध्यम से डेटा जाने से रोकें |
| फाइल प्रारूप समर्थन | DOCX, PDF, TXT, CSV, JSON, Excel |
डेटा नियम टीमों को स्थानीय टूल की ओर धकेलते हैं
TikTok के €530M जुर्माने ने जुर्मानों की एक व्यापक लहर शुरू की। EU टीमें जो क्लाउड टूल उपयोग करती थीं, वे अब एक नया प्रश्न पूछती हैं। क्या विक्रेता के सर्वर पर प्रसंस्करण GDPR अध्याय V और राष्ट्रीय डेटा कानूनों को संतुष्ट करती है?
"आपका डेटा कहाँ जाता है?" का सबसे साफ जवाब यह है: कहीं नहीं — यह कभी डिवाइस नहीं छोड़ता। स्थानीय प्रसंस्करण GDPR ट्रांसफर प्रश्न को पूरी तरह हटा देती है।
जर्मन टीमों के लिए, अनुच्छेद 44–46 की DSGVO की सख्त व्याख्या स्थानीय प्रसंस्करण को एक स्मार्ट विकल्प बनाती है। यह सख्त नेटवर्क प्रतिबंधों के बिना भी लागू होता है। हमारा सुरक्षा अवलोकन बताता है कि स्थानीय प्रसंस्करण तृतीय-पक्ष डेटा चेन को कैसे काटती है।
व्यावहारिक डेप्लॉयमेंट नोट्स
एयर-गैप्ड सिस्टम पर इंस्टॉल करें। इंस्टॉलर — Windows .exe या .msi, macOS .dmg, Linux .AppImage या .deb — USB या सुरक्षित फाइल ट्रांसफर के माध्यम से एयर-गैप्ड नेटवर्क पर ट्रांसफर होता है। इंस्टॉल के बाद इंटरनेट आवश्यक नहीं।
भाषा समर्थन। 24 भाषा-विशिष्ट मॉडल ऐप के साथ आते हैं। पूरा सेट बिना अतिरिक्त डाउनलोड के ऑफलाइन उपलब्ध है।
हार्डवेयर जरूरतें। NLP पाइपलाइन GPU के बिना आधुनिक वर्कस्टेशन पर चलती है। 1,000 दस्तावेज़ों के बैच प्रसंस्करण में आमतौर पर 5–15 मिनट लगते हैं। गति दस्तावेज़ आकार और CPU गति पर निर्भर करती है।
ऑफलाइन लाइसेंस सेटअप। उन नेटवर्क के लिए जहाँ लाइसेंस सर्वर पहुँच से बाहर है, ऑफलाइन लाइसेंस सेटअप उपलब्ध है।
एयर-गैपिंग कब सही नहीं है
एयर-गैप्ड सिस्टम विशिष्ट समस्याएं हल करते हैं। वे वास्तविक बोझ भी जोड़ते हैं।
अपडेट घर्षण। मॉडल और सॉफ़्टवेयर को वर्तमान रखने के लिए मैन्युअल कदम चाहिए। पीछे रह जाने वाली टीमें नए PII पैटर्न चूक सकती हैं।
लिंकिंग ओवरहेड। एयर-गैप्ड सिस्टम क्लाउड SIEM टूल या रिमोट ऑडिट डैशबोर्ड से कनेक्ट नहीं हो सकते। कस्टम डेटा-डायोड समाधान आवश्यक हैं। इससे लागत बढ़ती है।
सटीकता ट्रेड-ऑफ। क्लाउड टूल चल रहे आधार पर प्रशिक्षण डेटा अपडेट करते हैं। ऑफलाइन मॉडल एक स्नैपशॉट हैं। वे समय के साथ नए भाषा पैटर्न के खिलाफ पीछे रह सकते हैं।
हर खतरा मॉडल के लिए आवश्यक नहीं। सरकारी, स्वास्थ्य या कानूनी जनादेश के बिना टीमें क्लाउड टूल अधिक व्यावहारिक पा सकती हैं। ट्रांजिट और रेस्ट में मजबूत एन्क्रिप्शन, SOC 2 Type II ऑडिट और डेटा प्रसंस्करण समझौते अधिकांश मामलों को कवर करते हैं। एयर-गैपिंग तभी फायदेमंद है जब खतरा मॉडल वास्तव में एक कुशल प्रतिकूल द्वारा नेटवर्क-आधारित डेटा चोरी को शामिल करता है।
अधिकांश SMB और मानक उद्यम टीमों के लिए, ट्रांजिट और रेस्ट में मजबूत एन्क्रिप्शन पर्याप्त सुरक्षा देता है। ठोस संविदात्मक नियंत्रण जोड़ें और आप अधिकांश उपयोग मामलों को कवर करते हैं — पूर्ण एयर-गैपिंग के ओवरहेड के बिना। सही डेप्लॉयमेंट मॉडल चुनने पर अधिक जानकारी के लिए हमारा FAQ देखें।
anonym.legal का डेस्कटॉप ऐप (Windows, macOS, Linux) बंडल NLP मॉडल के साथ PII को पूरी तरह स्थानीय रूप से संसाधित करता है। इंस्टॉलेशन के बाद कोई इंटरनेट कनेक्शन आवश्यक नहीं है। बैच प्रसंस्करण योजना स्तर के आधार पर प्रति रन 1–5,000 फाइलों का समर्थन करता है।