वह छिपा हुआ जोखिम जिस पर कोई बात नहीं करता

GDPR अनुपालन ऑडिट करने वाले संगठन अक्सर एक ही प्रकार के छिपे खतरे से सामना करते हैं: डिजिटलीकरण कार्यक्रम लागू होने से पहले बनाए गए छवि-आधारित PDF पुरालेख।

20 साल की स्कैन की गई क्लाइंट फाइलें रखने वाली कानूनी फर्में। दशकों के स्कैन किए गए रोगी इनटेक फॉर्म वाले स्वास्थ्य सेवा प्रदाता। स्कैन किए गए ऐतिहासिक रिकॉर्ड रखने वाली सरकारी एजेंसियां। इमेज किए गए ऋण आवेदन और खाता दस्तावेज़ वाले बैंक।

इन पुरालेखों में एक साझा विशेषता है: दस्तावेज़ स्कैन की गई छवियों (raster PDF, TIFF, या JPEG) के रूप में संग्रहीत हैं — टेक्स्ट-आधारित डिजिटल दस्तावेज़ों के रूप में नहीं। खोजने के लिए कोई टेक्स्ट परत नहीं है, मानक PII टूल के विश्लेषण के लिए कोई मशीन-पठनीय सामग्री नहीं है। एक पारंपरिक अज्ञातीकरण टूल के लिए, ये दस्तावेज़ अदृश्य हैं।

आम गलतफहमी: "ये केवल इमेज फाइलें हैं — GDPR वास्तव में इन पर लागू नहीं होता।"

GDPR का पाठ स्पष्ट है। अनुच्छेद 17(1) डेटा विषयों को व्यक्तिगत डेटा मिटाने का अधिकार देता है। Recital 26 पुष्टि करता है कि अनामीकरण उस डेटा का मानक है जो अब किसी पहचान योग्य प्राकृतिक व्यक्ति से संबंधित नहीं है। कोई भी प्रावधान कागज-व्युत्पन्न छवि प्रारूपों के लिए छूट नहीं देता।

एक कानूनी फर्म जो 15 साल पहले सेवा किए गए किसी क्लाइंट के मिटाने के अधिकार अनुरोध का जवाब नहीं दे सकती — क्योंकि 15 साल पुराने क्लाइंट रिकॉर्ड केवल स्कैन किए गए इमेज PDF के रूप में मौजूद हैं — के पास GDPR अनुपालन की कमी है, कोई छूट नहीं।

छवि-आधारित PII पहचान कैसे काम करती है

छवि-आधारित दस्तावेज़ PII पहचान के लिए तकनीकी पाइपलाइन दो चरणों को एकीकृत करती है:

चरण 1: ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR)

इनपुट: स्कैन किया गया PDF या इमेज फाइल
OCR इंजन स्कैन की गई छवि से टेक्स्ट निकालता है
आउटपुट: स्थिति निर्देशांक के साथ मशीन-पठनीय टेक्स्ट
चुनौती: हस्तलेखन, खराब स्कैन गुणवत्ता, धुंधली स्याही, और पुराने टाइपफेस OCR सटीकता को कम करते हैं

चरण 2: NLP PII पहचान

इनपुट: OCR-निकाला हुआ टेक्स्ट
नेम्ड एंटिटी रिकॉग्निशन (NER) व्यक्ति के नाम, संगठन, स्थान पहचानता है
पैटर्न मिलान SSN, फोन नंबर, ईमेल पते, खाता नंबर पहचानता है
आउटपुट: विश्वास स्कोर और स्थिति संदर्भ के साथ पहचाने गए PII निकाय

चरण 3: अनामीकरण

पहचाने गए निकायों को निकाले गए टेक्स्ट आउटपुट में अनामीकृत किया जाता है
इमेज PDF के लिए: आउटपुट एक अनामीकृत टेक्स्ट दस्तावेज़ है (मूल छवि संशोधित नहीं होती)
अनामीकृत टेक्स्ट DSAR प्रतिक्रियाओं, मिटाने के अनुरोध पूर्ति, और अनुपालन दस्तावेज़ीकरण को सक्षम करता है

OCR गुणवत्ता प्राथमिक तकनीकी बाधा है। अच्छी गुणवत्ता वाले मुद्रित दस्तावेज़ों के लिए, आधुनिक OCR इंजन 98-99% वर्ण सटीकता प्राप्त करते हैं। हस्तलेखन या खराब स्कैन के लिए, सटीकता 85-92% हो सकती है।

बड़े पुरालेखों के लिए व्यावहारिक प्रसंस्करण

बड़े विरासत पुरालेखों वाले संगठनों के लिए परिचालन कार्यप्रवाह:

इन्वेंटरी चरण:

स्रोत प्रणाली और दिनांक सीमा के अनुसार सभी छवि-आधारित PDF पुरालेखों की सूची बनाएं
मिटाने के जोखिम के अनुसार प्राथमिकता दें (पहले क्लाइंट-सामना करने वाले रिकॉर्ड)

बैच प्रसंस्करण:

बैचों में पुरालेखों को संसाधित करें (प्रति बैच 5,000-10,000 फाइलें सामान्य है)
OCR + PII पहचान असंक्रामक रूप से चलती है
आउटपुट: प्रति-फाइल PII पहचान रिपोर्ट और अनामीकृत टेक्स्ट अर्क

मिटाने के अनुरोध पूर्ति:

डेटा विषय नाम और प्रासंगिक अवधि के साथ मिटाने का अनुरोध सबमिट करता है
डेटा विषय से जुड़े छद्म-नामीकृत टोकन के लिए अनामीकृत टेक्स्ट अर्क खोजें
डेटा विषय के रिकॉर्ड वाले विशिष्ट दस्तावेज़ पहचानें
उन विशिष्ट दस्तावेज़ों को रिडेक्शन के लिए संसाधित करें
मिटाने की कार्रवाई दस्तावेज़ करें

केस स्टडी: कानूनी फर्म का 20-वर्षीय पुरालेख

GDPR ऑडिट करने वाली एक कानूनी फर्म ने 1998 से 2010 के बीच स्कैन किए गए 80,000 छवि-आधारित PDF क्लाइंट अनुबंध खोजे। मानक PII टूल ने शून्य पहचान लौटाई — छवि-आधारित प्रारूप अदृश्य था।

अनुपालन समस्या ठोस थी: पिछले 12 महीनों में 15 पूर्व क्लाइंटों ने मिटाने के अनुरोध सबमिट किए थे। फर्म की प्रतिक्रिया थी: "हम पुष्टि नहीं कर सकते कि आपका डेटा मिटा दिया गया है क्योंकि हमारे ऐतिहासिक रिकॉर्ड इमेज प्रारूप में हैं जिन्हें हम संसाधित नहीं कर सकते।" यह GDPR अनुच्छेद 17 के तहत एक अनुपालन योग्य प्रतिक्रिया नहीं है।

प्रसंस्करण दृष्टिकोण:

5,000 के बैचों में सभी 80,000 दस्तावेज़ों पर OCR + PII पहचान
प्रसंस्करण समय: लगभग 3 सप्ताह का बैच प्रसंस्करण
परिणाम: प्रति-फाइल PII पहचान रिपोर्ट के साथ 80,000 अनामीकृत टेक्स्ट अर्क
दस्तावेज़ IDs से जुड़े पहचाने गए निकायों की खोज योग्य अनुक्रमणिका

प्रसंस्करण के बाद मिटाने का अनुरोध पूर्ति:

किसी विशिष्ट डेटा विषय के लिए दस्तावेज़ पहचानने का औसत समय: 4 मिनट
प्रति मिटाने के अनुरोध दस्तावेज़ संख्या: औसत 6-8 दस्तावेज़
पहचाने गए दस्तावेज़ों का रिडेक्शन: प्रति अनुरोध 20-30 मिनट

पहले असंभव अनुपालन दायित्व: पूरा किया। 15 लंबित मिटाने के अनुरोध पुरालेख प्रसंस्करण पूरा होने के 30 दिनों के भीतर हल किए गए।

OCR की सीमाएं और गुणवत्ता प्रबंधन

विरासत दस्तावेज़ों के लिए OCR-आधारित PII पहचान का ईमानदार मूल्यांकन सीमाओं को स्वीकार करना आवश्यक बनाता है:

हस्तलेखन सटीकता: हस्तलिखित दस्तावेज़ों में मुद्रित दस्तावेज़ों की तुलना में कम OCR सटीकता होती है।

खराब स्कैन गुणवत्ता: कम रिज़ॉल्यूशन पर या खराब एक्सपोज़र के साथ स्कैन किए गए दस्तावेज़ों में OCR सटीकता कम होती है।

असामान्य फ़ॉन्ट और प्रारूप: पूर्व-डिजिटल टाइपफेस, असामान्य लेआउट वाले कानूनी दस्तावेज़ प्रारूप में कम OCR सटीकता हो सकती है।

गुणवत्ता सीमा निर्धारण: बड़े अभिलेखागारों के लिए हाइब्रिड दृष्टिकोण — उच्च-विश्वास दस्तावेज़ों के लिए स्वचालित प्रसंस्करण, निम्न-विश्वास दस्तावेज़ों के लिए मैनुअल समीक्षा कतार — व्यावहारिक थ्रूपुट प्रदान करता है।

स्रोत:

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

GDPR और स्कैन किए दस्तावेज़: OCR + PII

वह छिपा हुआ जोखिम जिस पर कोई बात नहीं करता

छवि-आधारित PII पहचान कैसे काम करती है

बड़े पुरालेखों के लिए व्यावहारिक प्रसंस्करण

केस स्टडी: कानूनी फर्म का 20-वर्षीय पुरालेख

OCR की सीमाएं और गुणवत्ता प्रबंधन

संबंधित लेख

Self-Hosted PII Compliance Audits में विफल होता है

Presidio 220+ GDPR संस्थाओं को चूक जाता है

कॉन्फ़िगरेशन ड्रिफ्ट: एक छिपा GDPR जोखिम

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

GDPR और स्कैन किए दस्तावेज़: OCR + PII

वह छिपा हुआ जोखिम जिस पर कोई बात नहीं करता

छवि-आधारित PII पहचान कैसे काम करती है

बड़े पुरालेखों के लिए व्यावहारिक प्रसंस्करण

केस स्टडी: कानूनी फर्म का 20-वर्षीय पुरालेख

OCR की सीमाएं और गुणवत्ता प्रबंधन

संबंधित लेख

Self-Hosted PII Compliance Audits में विफल होता है

Presidio 220+ GDPR संस्थाओं को चूक जाता है

कॉन्फ़िगरेशन ड्रिफ्ट: एक छिपा GDPR जोखिम

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow