मिश्रित फ़ॉर्मेट E-Discovery: अनुपालन खाई बंद करना
एक दस्तावेज़ प्रोडक्शन अनुरोध आता है। सेट पाँच फ़ॉर्मेट में फैला है: PDF अनुबंध, Word दस्तावेज़, Excel स्प्रेडशीट, CSV एक्सपोर्ट और JSON लॉग। प्रत्येक फ़ॉर्मेट को एक अलग टूल की जरूरत है। यही समस्या है।
2025 Everlaw e-discovery रिपोर्ट में पाया गया कि कानूनी टीमें मिश्रित-फ़ॉर्मेट प्रोडक्शन के लिए औसतन 3.2 टूल उपयोग करती हैं। परिचालन लागत ऊँची है। अनुपालन जोखिम और भी ऊँचा है।
हम दस्तावेज़ प्रोडक्शन कैसे संभालते हैं, इसके लिए हमारा कानूनी अनुपालन अवलोकन और सुरक्षा प्रथाएँ देखें।
टूल विखंडन खाइयाँ क्यों बनाता है
अलग-अलग टूल का मतलब है अलग-अलग मानक। तीन कमजोरियाँ उभरती हैं।
Entity कवरेज टूल के अनुसार भिन्न होती है। Adobe Acrobat उन टेक्स्ट स्ट्रिंग की खोज करता है जो आप हाथ से दर्ज करते हैं। यह अपने आप entities detect नहीं करता। एक Word मैक्रो नाम और ईमेल पकड़ सकता है। यह शायद 280+ अन्य entity प्रकारों को चूक जाए। Excel find-and-replace केवल वही पकड़ता है जो आपने टाइप किया। PDF और Excel फ़ाइल में एक ही SSN को अलग-अलग टूल से अलग व्यवहार मिल सकता है।
ऑडिट ट्रेल अलग हो जाते हैं। प्रत्येक टूल अपनी कार्रवाइयाँ लॉग करता है — या बिल्कुल नहीं। एक DPA पूछ सकता है कि सभी व्यक्तिगत डेटा कैसे खोजा और संभाला गया। तीन टूल से तीन अलग लॉग एक कमजोर उत्तर है।
सेटिंग्स समय के साथ भटक जाती हैं। छह महीने पहले का PDF रिडक्शन नियम सेट पिछले हफ्ते अपडेट किए Word मैक्रो से मेल नहीं खा सकता।
अदालतों ने इस समस्या को संबोधित किया है। E-discovery त्रुटियों के लिए प्रतिबंधों ने एक प्रोडक्शन में दस्तावेज़ प्रकारों में असंगत मानकों का हवाला दिया है।
DSAR संगति आवश्यकता
GDPR DSAR में कानून में निर्मित एक संगति नियम है।
अनुच्छेद 15 के अनुसार डेटा विषय को सभी रखे गए व्यक्तिगत डेटा के बारे में जानकारी मिलनी चाहिए। सभी — केवल PDF में सभी और Word दस्तावेज़ों में अधिकांश नहीं।
ICO DSAR मार्गदर्शन इस पर स्पष्ट है। संगठनों को सभी सिस्टम और फ़ॉर्मेट में एक व्यवस्थित दृष्टिकोण लागू करना होगा। अलग-अलग मानकों वाले फ़ॉर्मेट-विशिष्ट टूल इस मानदंड को पूरा नहीं करते।
जब DPA DSAR शिकायत की जाँच करता है, तो चार प्रश्न आते हैं:
- किस प्रक्रिया ने सभी व्यक्तिगत डेटा खोजा?
- कौन से टूल ने कौन से दस्तावेज़ प्रकार प्रोसेस किए?
- प्रत्येक फ़ॉर्मेट में कौन से entity प्रकार खोजे गए?
- कौन सा ऑडिट ट्रेल पूर्णता साबित करता है?
अलग लॉग वाले अलग टूल प्रश्न 3 और 4 को स्पष्ट रूप से उत्तर नहीं दे सकते।
एकीकृत इंजन का लाभ
एक एकीकृत इंजन हर फ़ॉर्मेट पर एक ही detection तर्क चलाता है। चार लाभ मिलते हैं।
सुसंगत entity कवरेज। 32 entity प्रकारों वाला प्रीसेट PDF, DOCX, XLSX और CSV को एक ही तरह से प्रोसेस करता है। Excel में SSN को PDF में SSN जैसा ही विश्वास सीमा मिलती है।
एक ऑडिट ट्रेल। एक लॉग बैच में सभी फाइलों को कवर करता है। यह फ़ाइल नाम, प्रकार, detected entities, विश्वास मूल्य और की गई कार्रवाइयाँ दिखाता है। एक दस्तावेज़ पूरे प्रोडक्शन के अनुपालन को साबित करता है।
Referential integrity। मान लें "Sarah Johnson" एक PDF अनुबंध, एक Word पत्र और एक Excel रिकॉर्ड में दिखाई देती है। एक ही टोकन — PERSON_0001 — तीनों में उसका नाम बदलता है। डेटा विषय पूरे प्रोडक्शन में अपना रिकॉर्ड trace कर सकता है।
सरल वर्कफ़्लो। मिश्रित फ़ॉर्मेट की 15 फाइलें एक बैच में डालें। एक प्रीसेट लागू करें। 15 अनामीकृत आउटपुट और एक ऑडिट रिपोर्ट प्राप्त करें। तीन अलग टूल वर्कफ़्लो एक में सिमट जाते हैं।
बैच जॉब में प्रीसेट कैसे काम करते हैं, इस पर अधिक जानकारी के लिए हमारा GDPR DSAR बैच प्रोसेसिंग गाइड देखें।
संघीय FOIA: बड़े पैमाने पर वही समस्या
US संघीय एजेंसियाँ अधिक वॉल्यूम पर मिश्रित-फ़ॉर्मेट चुनौती का सामना करती हैं।
FOIA अनुरोध पुराने mainframe एक्सपोर्ट, आधुनिक Word दस्तावेज़, स्कैन किए PDF अभिलेखागार और CSV व JSON डेटाबेस एक्सपोर्ट में फैले होते हैं। कोई एजेंसी एक फ़ॉर्मेट उपयोग नहीं करती।
DOJ और HHS दोनों ने स्वचालित संपादन सिस्टम का परीक्षण किया है। मैन्युअल मल्टी-फ़ॉर्मेट प्रोसेसिंग उनके अनुरोध वॉल्यूम तक स्केल नहीं करती। प्रत्येक पायलट की एक ही मुख्य आवश्यकता थी: सभी फ़ॉर्मेट में एक छूट मानक और एक प्रलेखित ऑडिट ट्रेल।
यही सिद्धांत संघीय सरकार के बाहर भी लागू होता है। मल्टी-फ़ॉर्मेट अनुपालन जरूरतों वाले किसी भी संगठन को एक ही चीज़ चाहिए: एक मानक, एक ऑडिट ट्रेल।
लॉ फर्म केस स्टडी
एक मध्यम आकार की लॉ फर्म एंटरप्राइज क्लाइंट के लिए GDPR DSAR प्रतिक्रियाएँ चलाती थी।
एकीकरण से पहले, फर्म चार अलग टूल उपयोग करती थी। Adobe Acrobat ने PDF संभाले। एक Word मैक्रो ने DOCX संभाले — केवल नाम और ईमेल। Excel find-and-replace ने XLSX संभाले। CSV एक्सपोर्ट मैन्युअल समीक्षा से गुजरे। प्रत्येक DSAR में 8-12 घंटे लगते थे। सभी फ़ॉर्मेट में केवल 2-3 entity प्रकार एक ही तरह जाँचे जाते थे।
बाद में, एक एकीकृत इंजन ने एक बैच में सभी फ़ॉर्मेट संभाले। प्रीसेट: "DSAR EU Individual।" इंजन ने हर फ़ॉर्मेट में एक ही तरह से 32 entity प्रकार जाँचे। प्रत्येक DSAR में एक घंटे से कम लगा। एक ऑडिट रिपोर्ट DPO को sign-off के लिए गई।
फर्म अब DSAR प्रोडक्शन के प्रत्येक दस्तावेज़ प्रकार में सुसंगत entity कवरेज साबित कर सकती है। प्रत्येक प्रतिक्रिया को एक ऑडिट दस्तावेज़ कवर करता है। समय 8-12 घंटे से एक घंटे से कम हो गया।
संबंधित: दस्तावेज़ फ़ॉर्मेट विखंडन और PII अनामीकरण।
निष्कर्ष
फ़ॉर्मेट विखंडन एक अनुपालन देनदारी है। अलग-अलग टूल का मतलब है अलग-अलग मानक। अलग-अलग मानक ऑडिट खाइयाँ बनाते हैं। ऑडिट खाइयाँ नियामक एक्सपोज़र लाती हैं।
एक एकीकृत इंजन इसे स्रोत पर ठीक करता है। एक detection मानक। एक ऑडिट ट्रेल। एक वर्कफ़्लो — हर फ़ॉर्मेट के लिए।