By · Last updated 2026-06-05

بلاگ پر واپس جائیںGDPR اور تعمیل

GDPR اور پرانے اسکین شدہ دستاویزات: OCR اور ذاتی معلومات

GDPR کا حذف کا حق ذاتی ڈیٹا پر لاگو ہوتا ہے 'فارمیٹ سے قطع نظر۔' کاغذی آرکائیوز سے حاصل کردہ تصویری PDFs اس سے مستثنیٰ نہیں ہیں۔

June 5, 20267 منٹ پڑھیں
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR اور پرانی اسکین شدہ فائلیں: ذاتی معلومات کے لیے OCR

2026 کے لیے اپ ڈیٹ شدہ

GDPR آڈٹ میں اکثر ایک ہی چھپا ہوا خطرہ سامنے آتا ہے: پرانے تصویری PDF آرکائیوز۔

قانونی فرمیں 20 سال کی اسکین شدہ کلائنٹ فائلیں رکھتی ہیں۔ ہسپتال عشروں پرانے مریضوں کے فارم محفوظ رکھتے ہیں۔ سرکاری ادارے اسکین شدہ ریکارڈ ذخیرہ کرتے ہیں۔ بینکوں کے پاس تصویری لون فائلیں ہیں۔

ان آرکائیوز میں ایک مشترکہ خصوصیت ہے۔ فائلیں raster images ہیں — اسکین شدہ PDFs، TIFF، یا JPEG۔ کوئی text layer نہیں ہے۔ معیاری PII ٹولز انہیں پڑھ نہیں سکتے۔ زیادہ تر anonymization ٹولز کے نقطہ نظر سے یہ فائلیں موجود ہی نہیں ہوتیں۔

ایک عام غلط فہمی: "یہ image files ہیں — GDPR لاگو نہیں ہوتا۔"

GDPR آرٹیکل 17(1) لوگوں کو حذف کا حق دیتا ہے۔ Recital 26 کہتا ہے کہ anonymization ذاتی معلومات کو دائرہ کار سے باہر کر دیتی ہے۔ نہ کوئی image formats کے لیے استثنیٰ دیتا ہے۔ ایک قانونی فرم جو 15 سال پرانی کلائنٹ فائل کے لیے حذف کی درخواست پوری نہیں کر سکتی، اس کے پاس compliance gap ہے۔ استثنیٰ نہیں ہے۔

ہماری compliance overview اور security practices دیکھیں کہ ہم GDPR کی حمایت کیسے کرتے ہیں۔

detection pipeline کیسے کام کرتا ہے

یہ عمل تین مراحل میں چلتا ہے۔

مرحلہ 1 — OCR

OCR انجن تصویر پڑھتا ہے اور متن نکالتا ہے۔ یہ ہر لفظ کی پوزیشن ریکارڈ کرتا ہے۔ آؤٹ پٹ مشین سے پڑھنے کے قابل متن ہے جس میں coordinates ہوتے ہیں۔ جب handwriting، مدھم روشنائی، یا پرانے typefaces موجود ہوں تو درستگی کم ہو جاتی ہے۔

مرحلہ 2 — NLP Entity Detection

Named Entity Recognition (NER) OCR متن کو اسکین کرتی ہے۔ یہ اشخاص کے نام، تنظیمیں، اور مقامات تلاش کرتی ہے۔ Pattern matching SSNs، فون نمبر، اور account numbers شامل کرتی ہے۔ ہر نتیجے کو confidence score ملتا ہے۔

مرحلہ 3 — Anonymization

پائے گئے entities کو متن آؤٹ پٹ میں تبدیل کیا جاتا ہے۔ اصل تصویر نہیں بدلتی۔ تصویر تبدیل کرنے کے لیے الگ redaction tooling کی ضرورت ہوتی ہے۔ anonymized متن حذف کی درخواستوں، DSAR responses، اور compliance ریکارڈ کے لیے استعمال ہوتا ہے۔

جدید OCR انجن صاف چھپے صفحات پر 98–99% حرفی درستگی تک پہنچتے ہیں۔ handwriting یا خراب اسکینز 85–92% تک آتے ہیں۔ Entity سطح پر درستگی عام طور پر حرف سطح سے زیادہ ہوتی ہے۔ ایک نام تب بھی شناخت ہو سکتا ہے جب چند حروف غلط ہوں۔

عملی نتیجہ: OCR درستگی اس بات پر اثر ڈالتی ہے کہ آپ کتنی entities پکڑتے ہیں۔ یہ طے نہیں کرتی کہ طریقہ کار کام کرتا ہے یا نہیں۔ 90% درستگی پر بھی آپ زیادہ تر نام اور نمبر تلاش کر لیتے ہیں۔

ایک بڑی آرکائیو کی پروسیسنگ

بڑی legacy آرکائیوز چار مرحلوں پر مشتمل workflow اختیار کرتی ہیں۔

مرحلہ 1 — انوینٹری: تمام تصویری آرکائیوز کی فہرست بنائیں۔ ماخذ system اور تاریخ کی حد نوٹ کریں۔ زیادہ حذف کے خطرے والے ریکارڈ پہلے رکھیں۔ کلائنٹ سے متعلق فائلیں اندرونی فائلوں سے پہلے آئیں۔

مرحلہ 2 — Batch پروسیسنگ: OCR اور PII detection بیچوں میں چلائیں۔ ہر batch میں پانچ سے دس ہزار فائلیں عام حجم ہے۔ پروسیسنگ رات کو چلتی ہے۔ آؤٹ پٹ ہر فائل کے لیے PII رپورٹ اور anonymized متن extract ہے۔

مرحلہ 3 — حذف کی تکمیل: subject اپنا نام اور عرصہ لے کر درخواست بھیجتا ہے۔ anonymized extracts میں ان کے tokens تلاش کریں۔ فائلیں تلاش کریں۔ انہیں redact کریں۔ عمل ریکارڈ کریں۔

مرحلہ 4 — جاری compliance: نئی اسکین فائلوں کو آرکائیو کرنے سے پہلے اسی pipeline سے گزاریں۔ PII رپورٹس کو آرٹیکل 30 کے Records of Processing Activities کثبوت کے طور پر رکھیں۔

کیس اسٹڈی: قانونی فرم کی آرکائیو

ایک قانونی فرم کے آڈٹ میں 1998 سے 2010 تک اسکین کردہ 80,000 تصویری PDF کلائنٹ contracts ملے۔ معیاری PII ٹولز نے صفر detections دکھائے۔ image format پوشیدہ تھا۔

گزشتہ 12 مہینوں میں 15 سابق کلائنٹس نے حذف کی درخواستیں جمع کرائی تھیں۔ فرم نے کہا: "ہم تصدیق نہیں کر سکتے کہ آپ کے ریکارڈ حذف کیے جا چکے ہیں۔" یہ جواب GDPR آرٹیکل 17 کو پورا نہیں کرتا۔

فرم نے کیا کیا:

  • تمام 80,000 فائلوں پر 5,000 کے بیچوں میں OCR اور PII detection چلائی
  • پروسیسنگ میں تقریباً تین ہفتے لگے
  • نتیجہ: 80,000 anonymized متن extracts فی فائل رپورٹس کے ساتھ
  • ایک قابل تلاش index بنائی جو entities کو file IDs سے جوڑتی ہے

پروسیسنگ کے بعد:

  • ایک subject کے لیے فائلیں تلاش کرنا: اوسطاً 4 منٹ
  • فی درخواست فائلیں: اوسطاً 6–8
  • فی درخواست redaction کا وقت: 20–30 منٹ

تمام 15 زیر التواء درخواستیں 30 دنوں کے اندر حل کر دی گئیں۔

OCR کی حدود اور معیار کے درجے

Handwriting میں OCR درستگی کم ہوتی ہے۔ handwritten مواد کو پروسیس کرنے سے پہلے کم confidence threshold مقرر کریں۔

اسکین کا خراب معیار scores کم کرتا ہے۔ OCR چلانے سے پہلے contrast enhancement اور de-skewing مددگار ہیں۔

غیر معمولی layouts — multi-column صفحات، پرانے قانونی typefaces — بھی کم score حاصل کر سکتے ہیں۔

compliance کام کے لیے معیار کے درجے مقرر کریں:

  • 95% سے اوپر صفحہ درستگی: خودکار پروسیسنگ چلائیں
  • 80–95%: خودکار پروسیسنگ چلائیں، پھر flagged entities کے لیے انسانی جائزہ
  • 80% سے نیچے: دستی جائزے کے لیے بھیجیں

ہمارا FAQ OCR پر مبنی پروسیسنگ اور audit trail کی ضروریات کے بارے میں عام سوالات کا احاطہ کرتا ہے۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.