GDPR اور پرانی اسکین شدہ فائلیں: ذاتی معلومات کے لیے OCR
2026 کے لیے اپ ڈیٹ شدہ
GDPR آڈٹ میں اکثر ایک ہی چھپا ہوا خطرہ سامنے آتا ہے: پرانے تصویری PDF آرکائیوز۔
قانونی فرمیں 20 سال کی اسکین شدہ کلائنٹ فائلیں رکھتی ہیں۔ ہسپتال عشروں پرانے مریضوں کے فارم محفوظ رکھتے ہیں۔ سرکاری ادارے اسکین شدہ ریکارڈ ذخیرہ کرتے ہیں۔ بینکوں کے پاس تصویری لون فائلیں ہیں۔
ان آرکائیوز میں ایک مشترکہ خصوصیت ہے۔ فائلیں raster images ہیں — اسکین شدہ PDFs، TIFF، یا JPEG۔ کوئی text layer نہیں ہے۔ معیاری PII ٹولز انہیں پڑھ نہیں سکتے۔ زیادہ تر anonymization ٹولز کے نقطہ نظر سے یہ فائلیں موجود ہی نہیں ہوتیں۔
ایک عام غلط فہمی: "یہ image files ہیں — GDPR لاگو نہیں ہوتا۔"
GDPR آرٹیکل 17(1) لوگوں کو حذف کا حق دیتا ہے۔ Recital 26 کہتا ہے کہ anonymization ذاتی معلومات کو دائرہ کار سے باہر کر دیتی ہے۔ نہ کوئی image formats کے لیے استثنیٰ دیتا ہے۔ ایک قانونی فرم جو 15 سال پرانی کلائنٹ فائل کے لیے حذف کی درخواست پوری نہیں کر سکتی، اس کے پاس compliance gap ہے۔ استثنیٰ نہیں ہے۔
ہماری compliance overview اور security practices دیکھیں کہ ہم GDPR کی حمایت کیسے کرتے ہیں۔
detection pipeline کیسے کام کرتا ہے
یہ عمل تین مراحل میں چلتا ہے۔
مرحلہ 1 — OCR
OCR انجن تصویر پڑھتا ہے اور متن نکالتا ہے۔ یہ ہر لفظ کی پوزیشن ریکارڈ کرتا ہے۔ آؤٹ پٹ مشین سے پڑھنے کے قابل متن ہے جس میں coordinates ہوتے ہیں۔ جب handwriting، مدھم روشنائی، یا پرانے typefaces موجود ہوں تو درستگی کم ہو جاتی ہے۔
مرحلہ 2 — NLP Entity Detection
Named Entity Recognition (NER) OCR متن کو اسکین کرتی ہے۔ یہ اشخاص کے نام، تنظیمیں، اور مقامات تلاش کرتی ہے۔ Pattern matching SSNs، فون نمبر، اور account numbers شامل کرتی ہے۔ ہر نتیجے کو confidence score ملتا ہے۔
مرحلہ 3 — Anonymization
پائے گئے entities کو متن آؤٹ پٹ میں تبدیل کیا جاتا ہے۔ اصل تصویر نہیں بدلتی۔ تصویر تبدیل کرنے کے لیے الگ redaction tooling کی ضرورت ہوتی ہے۔ anonymized متن حذف کی درخواستوں، DSAR responses، اور compliance ریکارڈ کے لیے استعمال ہوتا ہے۔
جدید OCR انجن صاف چھپے صفحات پر 98–99% حرفی درستگی تک پہنچتے ہیں۔ handwriting یا خراب اسکینز 85–92% تک آتے ہیں۔ Entity سطح پر درستگی عام طور پر حرف سطح سے زیادہ ہوتی ہے۔ ایک نام تب بھی شناخت ہو سکتا ہے جب چند حروف غلط ہوں۔
عملی نتیجہ: OCR درستگی اس بات پر اثر ڈالتی ہے کہ آپ کتنی entities پکڑتے ہیں۔ یہ طے نہیں کرتی کہ طریقہ کار کام کرتا ہے یا نہیں۔ 90% درستگی پر بھی آپ زیادہ تر نام اور نمبر تلاش کر لیتے ہیں۔
ایک بڑی آرکائیو کی پروسیسنگ
بڑی legacy آرکائیوز چار مرحلوں پر مشتمل workflow اختیار کرتی ہیں۔
مرحلہ 1 — انوینٹری: تمام تصویری آرکائیوز کی فہرست بنائیں۔ ماخذ system اور تاریخ کی حد نوٹ کریں۔ زیادہ حذف کے خطرے والے ریکارڈ پہلے رکھیں۔ کلائنٹ سے متعلق فائلیں اندرونی فائلوں سے پہلے آئیں۔
مرحلہ 2 — Batch پروسیسنگ: OCR اور PII detection بیچوں میں چلائیں۔ ہر batch میں پانچ سے دس ہزار فائلیں عام حجم ہے۔ پروسیسنگ رات کو چلتی ہے۔ آؤٹ پٹ ہر فائل کے لیے PII رپورٹ اور anonymized متن extract ہے۔
مرحلہ 3 — حذف کی تکمیل: subject اپنا نام اور عرصہ لے کر درخواست بھیجتا ہے۔ anonymized extracts میں ان کے tokens تلاش کریں۔ فائلیں تلاش کریں۔ انہیں redact کریں۔ عمل ریکارڈ کریں۔
مرحلہ 4 — جاری compliance: نئی اسکین فائلوں کو آرکائیو کرنے سے پہلے اسی pipeline سے گزاریں۔ PII رپورٹس کو آرٹیکل 30 کے Records of Processing Activities کثبوت کے طور پر رکھیں۔
کیس اسٹڈی: قانونی فرم کی آرکائیو
ایک قانونی فرم کے آڈٹ میں 1998 سے 2010 تک اسکین کردہ 80,000 تصویری PDF کلائنٹ contracts ملے۔ معیاری PII ٹولز نے صفر detections دکھائے۔ image format پوشیدہ تھا۔
گزشتہ 12 مہینوں میں 15 سابق کلائنٹس نے حذف کی درخواستیں جمع کرائی تھیں۔ فرم نے کہا: "ہم تصدیق نہیں کر سکتے کہ آپ کے ریکارڈ حذف کیے جا چکے ہیں۔" یہ جواب GDPR آرٹیکل 17 کو پورا نہیں کرتا۔
فرم نے کیا کیا:
- تمام 80,000 فائلوں پر 5,000 کے بیچوں میں OCR اور PII detection چلائی
- پروسیسنگ میں تقریباً تین ہفتے لگے
- نتیجہ: 80,000 anonymized متن extracts فی فائل رپورٹس کے ساتھ
- ایک قابل تلاش index بنائی جو entities کو file IDs سے جوڑتی ہے
پروسیسنگ کے بعد:
- ایک subject کے لیے فائلیں تلاش کرنا: اوسطاً 4 منٹ
- فی درخواست فائلیں: اوسطاً 6–8
- فی درخواست redaction کا وقت: 20–30 منٹ
تمام 15 زیر التواء درخواستیں 30 دنوں کے اندر حل کر دی گئیں۔
OCR کی حدود اور معیار کے درجے
Handwriting میں OCR درستگی کم ہوتی ہے۔ handwritten مواد کو پروسیس کرنے سے پہلے کم confidence threshold مقرر کریں۔
اسکین کا خراب معیار scores کم کرتا ہے۔ OCR چلانے سے پہلے contrast enhancement اور de-skewing مددگار ہیں۔
غیر معمولی layouts — multi-column صفحات، پرانے قانونی typefaces — بھی کم score حاصل کر سکتے ہیں۔
compliance کام کے لیے معیار کے درجے مقرر کریں:
- 95% سے اوپر صفحہ درستگی: خودکار پروسیسنگ چلائیں
- 80–95%: خودکار پروسیسنگ چلائیں، پھر flagged entities کے لیے انسانی جائزہ
- 80% سے نیچے: دستی جائزے کے لیے بھیجیں
ہمارا FAQ OCR پر مبنی پروسیسنگ اور audit trail کی ضروریات کے بارے میں عام سوالات کا احاطہ کرتا ہے۔