২০২৬ সালের জন্য আপডেট করা হয়েছে

GDPR অডিটে একটি লুকানো ঝুঁকি বারবার উঠে আসে: পুরনো ইমেজ-ভিত্তিক PDF আর্কাইভ।

আইন সংস্থাগুলো ২০ বছরের স্ক্যান করা ক্লায়েন্ট ফাইল ধরে রাখে। হাসপাতালগুলো দশকের পর দশকের রোগীর ফর্ম সংরক্ষণ করে। সরকারি সংস্থাগুলো স্ক্যান করা রেকর্ড সংগ্রহ করে। ব্যাংকগুলোর কাছে ইমেজ করা ঋণ ফাইল থাকে।

এই আর্কাইভগুলোর একটি সাধারণ বৈশিষ্ট্য আছে। ফাইলগুলো রাস্টার ইমেজ — স্ক্যান করা PDF, TIFF, বা JPEG। এগুলোতে কোনো টেক্সট লেয়ার নেই। সাধারণ PII টুলগুলো এগুলো পড়তে পারে না। বেশিরভাগ অ্যানোনিমাইজেশন টুলের কাছে এই ফাইলগুলো যেন অস্তিত্বহীন।

একটি প্রচলিত ধারণা আছে: "এগুলো ইমেজ ফাইল — GDPR এখানে প্রযোজ্য নয়।"

GDPR অনুচ্ছেদ ১৭(১) মানুষকে মুছে ফেলার অধিকার দেয়। রিসাইটাল ২৬ বলে যে অ্যানোনিমাইজেশন ব্যক্তিগত তথ্যকে আওতার বাইরে নিয়ে যায়। কোনোটিই ইমেজ ফরম্যাটের জন্য ব্যতিক্রম রাখে না। যে আইন সংস্থা ১৫ বছরের পুরনো ক্লায়েন্ট ফাইলের মুছে ফেলার অনুরোধ পূরণ করতে পারে না, তাদের একটি কমপ্লায়েন্স ঘাটতি আছে। তাদের কাছে কোনো ছাড় নেই।

আমাদের কমপ্লায়েন্স ওভারভিউ এবং নিরাপত্তা অনুশীলন দেখুন যেখানে আমরা GDPR সহায়তা করি।

শনাক্তকরণ পাইপলাইন কীভাবে কাজ করে

প্রক্রিয়াটি তিনটি পর্যায়ে চলে।

পর্যায় ১ — OCR

OCR ইঞ্জিন ইমেজটি পড়ে এবং টেক্সট বের করে। প্রতিটি শব্দের অবস্থান রেকর্ড করে। আউটপুট হলো স্থানাঙ্কসহ মেশিন-পঠনযোগ্য টেক্সট। হাতে লেখা, বিবর্ণ কালি, বা পুরনো টাইপফেস থাকলে নির্ভুলতা কমে যায়।

পর্যায় ২ — NLP সত্তা শনাক্তকরণ

নেমড এন্টিটি রিকগনিশন (NER) OCR টেক্সট স্ক্যান করে। এটি ব্যক্তির নাম, প্রতিষ্ঠান এবং অবস্থান খুঁজে পায়। প্যাটার্ন ম্যাচিং SSN, ফোন নম্বর এবং অ্যাকাউন্ট নম্বর যোগ করে। প্রতিটি হিটে একটি আস্থার স্কোর থাকে।

পর্যায় ৩ — অ্যানোনিমাইজেশন

শনাক্ত করা সত্তাগুলো টেক্সট আউটপুটে প্রতিস্থাপিত হয়। মূল ইমেজ পরিবর্তন হয় না। ইমেজ পরিবর্তনের জন্য আলাদা রিডাকশন টুলিং প্রয়োজন। অ্যানোনিমাইজড টেক্সট মুছে ফেলার অনুরোধ, DSAR রেসপন্স এবং কমপ্লায়েন্স রেকর্ড সমর্থন করে।

আধুনিক OCR ইঞ্জিনগুলো পরিষ্কার প্রিন্টেড পৃষ্ঠায় ৯৮–৯৯% অক্ষর নির্ভুলতায় পৌঁছায়। হাতে লেখা বা খারাপ স্ক্যানে ৮৫–৯২% এ নেমে আসে। সত্তা-স্তরের নির্ভুলতা অক্ষর-স্তরের নির্ভুলতার চেয়ে বেশি থাকে। কয়েকটি অক্ষর ভুল হলেও একটি নাম শনাক্ত করা যায়।

ব্যবহারিক ফলাফল: OCR নির্ভুলতা প্রভাবিত করে আপনি কতটি সত্তা ধরতে পারবেন। এটি পদ্ধতিটি কাজ করে কিনা তা নির্ধারণ করে না। এমনকি ৯০% নির্ভুলতায়ও, আপনি বেশিরভাগ নাম এবং নম্বর খুঁজে পাবেন। মানের স্তর এখনও প্রয়োজন। পদ্ধতিটি নিজেই সঠিক।

একটি বড় আর্কাইভ প্রক্রিয়াকরণ

বড় পুরনো আর্কাইভগুলো চার-পর্যায়ের কর্মপ্রবাহ অনুসরণ করে।

পর্যায় ১ — তালিকা তৈরি: সমস্ত ইমেজ-ভিত্তিক আর্কাইভের তালিকা করুন। উৎস সিস্টেম এবং তারিখের পরিসীমা উল্লেখ করুন। উচ্চ-মুছে ফেলার ঝুঁকির রেকর্ডগুলো আগে রাখুন। ক্লায়েন্টমুখী ফাইলগুলো অভ্যন্তরীণগুলোর আগে আসে।

পর্যায় ২ — ব্যাচ প্রক্রিয়াকরণ: ব্যাচে OCR এবং PII শনাক্তকরণ চালান। প্রতি ব্যাচে পাঁচ থেকে দশ হাজার ফাইল সাধারণ আকার। প্রক্রিয়াকরণ রাতারাতি চলে। আউটপুট হলো প্রতিটি ফাইলের জন্য একটি PII রিপোর্ট এবং একটি অ্যানোনিমাইজড টেক্সট এক্সট্র্যাক্ট।

পর্যায় ৩ — মুছে ফেলা পূরণ: বিষয় তাদের নাম এবং সময়কাল সহ একটি অনুরোধ পাঠায়। তাদের টোকেনগুলোর জন্য অ্যানোনিমাইজড এক্সট্র্যাক্টগুলো অনুসন্ধান করুন। ফাইলগুলো খুঁজুন। সেগুলো রিডাক্ট করুন। ক্রিয়াটি লগ করুন।

পর্যায় ৪ — চলমান কমপ্লায়েন্স: আর্কাইভ করার আগে নতুন স্ক্যান করা ফাইলগুলোকে একই পাইপলাইনের মধ্য দিয়ে রাখুন। PII রিপোর্টগুলো অনুচ্ছেদ ৩০ প্রক্রিয়াকরণ কার্যক্রমের রেকর্ডের প্রমাণ হিসেবে রাখুন।

কেস স্টাডি: আইন সংস্থার আর্কাইভ

একটি আইন সংস্থার অডিটে ১৯৯৮ থেকে ২০১০ সালের মধ্যে স্ক্যান করা ৮০,০০০ ইমেজ-ভিত্তিক PDF ক্লায়েন্ট চুক্তি পাওয়া গেছে। সাধারণ PII টুলগুলো শূন্য শনাক্তকরণ দেখিয়েছে। ইমেজ ফরম্যাটটি অদৃশ্য ছিল।

গত ১২ মাসে পনেরোজন প্রাক্তন ক্লায়েন্ট মুছে ফেলার অনুরোধ জমা দিয়েছিলেন। সংস্থা বলেছিল: "আমরা নিশ্চিত করতে পারছি না যে আপনার রেকর্ড মুছে ফেলা হয়েছে।" সেই উত্তর GDPR অনুচ্ছেদ ১৭ পূরণ করে না।

সংস্থা যা করেছিল:

৫,০০০ করে ব্যাচে সমস্ত ৮০,০০০ ফাইলে OCR এবং PII শনাক্তকরণ চালিয়েছে
প্রক্রিয়াকরণে প্রায় তিন সপ্তাহ লেগেছে
ফলাফল: প্রতিটি ফাইলের রিপোর্ট সহ ৮০,০০০ অ্যানোনিমাইজড টেক্সট এক্সট্র্যাক্ট
ফাইল আইডির সাথে সত্তা সংযুক্তকারী একটি অনুসন্ধানযোগ্য সূচক তৈরি করেছে

প্রক্রিয়াকরণের পরে:

একজন বিষয়ের জন্য ফাইল খোঁজার সময়: গড়ে ৪ মিনিট
প্রতি অনুরোধে ফাইল: গড়ে ৬–৮টি
প্রতি অনুরোধে রিডাকশন সময়: ২০–৩০ মিনিট

সমস্ত ১৫টি বকেয়া অনুরোধ ৩০ দিনের মধ্যে সমাধান করা হয়েছিল।

মূল বিষয়: প্রক্রিয়াকরণের আগে কমপ্লায়েন্স বাধ্যবাধকতা বিদ্যমান ছিল। সংস্থার কাছে কেবল সেটি পূরণের টুল ছিল না। OCR-ভিত্তিক প্রক্রিয়াকরণ নতুন কোনো দায়িত্ব তৈরি করেনি। এটি একটি বিদ্যমান দায়িত্ব পূরণ করা সম্ভব করেছে।

OCR-এর সীমাবদ্ধতা এবং মানের স্তর

হাতে লেখা কম OCR নির্ভুলতার কারণ। হাতে লেখা বিষয়বস্তু প্রক্রিয়াকরণের আগে কম আস্থার থ্রেশহোল্ড সেট করুন।

স্ক্যানের খারাপ মান স্কোর কমায়। OCR চালানোর আগে কনট্রাস্ট উন্নতি এবং ডি-স্কিউয়িং সাহায্য করে।

অস্বাভাবিক লেআউট — মাল্টি-কলাম পৃষ্ঠা, পুরনো আইনি টাইপফেস — কম স্কোর করতে পারে।

কমপ্লায়েন্স কাজের জন্য মানের স্তর নির্ধারণ করুন:

৯৫% এর উপরে পৃষ্ঠার নির্ভুলতা: স্বয়ংক্রিয় প্রক্রিয়াকরণ চালান
৮০–৯৫%: স্বয়ংক্রিয় প্রক্রিয়াকরণ চালান, তারপর ফ্ল্যাগ করা সত্তাগুলোর জন্য মানব পর্যালোচনা
৮০% এর নিচে: ম্যানুয়াল পর্যালোচনায় পাঠান

স্তরযুক্ত পদ্ধতি নিয়ন্ত্রকদের একটি স্পষ্ট উত্তর দেয় যে আপনি কীভাবে নির্ভরযোগ্যতা মূল্যায়ন করেছেন। বেশিরভাগ স্বয়ংক্রিয় টুল উচ্চ-আস্থার ফাইলগুলো পরিচালনা করে। একটি ম্যানুয়াল কিউ বাকিগুলো পরিচালনা করে। থ্রুপুট বেশি থাকে। কমপ্লায়েন্স মানও বেশি থাকে।

আমাদের FAQ OCR-ভিত্তিক প্রক্রিয়াকরণ এবং অডিট ট্রেইল প্রয়োজনীয়তা সম্পর্কে সাধারণ প্রশ্নগুলো কভার করে।

সূত্রসমূহ

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

48 ভাষায় 285+ সত্তা প্রকারের সাথে PII অ্যানোনিমাইজ করা শুরু করুন।

ফ্রি ট্রায়াল শুরু করুন ফিচারগুলি দেখুন

GDPR এবং পুরনো স্ক্যান করা নথি: OCR দিয়ে PII শনাক্তকরণ

শনাক্তকরণ পাইপলাইন কীভাবে কাজ করে

একটি বড় আর্কাইভ প্রক্রিয়াকরণ

কেস স্টাডি: আইন সংস্থার আর্কাইভ

OCR-এর সীমাবদ্ধতা এবং মানের স্তর

সূত্রসমূহ

সম্পর্কিত নিবন্ধ

সেলফ-হোস্টেড PII কমপ্লায়েন্স অডিটে ব্যর্থ হয়

Presidio ২২০টিরও বেশি GDPR এন্টিটি মিস করে

কনফিগারেশন ড্রিফট: একটি লুকানো GDPR ঝুঁকি

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

GDPR এবং পুরনো স্ক্যান করা নথি: OCR দিয়ে PII শনাক্তকরণ

GDPR এবং পুরনো স্ক্যান করা ফাইল: PII শনাক্তে OCR

শনাক্তকরণ পাইপলাইন কীভাবে কাজ করে

একটি বড় আর্কাইভ প্রক্রিয়াকরণ

কেস স্টাডি: আইন সংস্থার আর্কাইভ

OCR-এর সীমাবদ্ধতা এবং মানের স্তর

সূত্রসমূহ

সম্পর্কিত নিবন্ধ

সেলফ-হোস্টেড PII কমপ্লায়েন্স অডিটে ব্যর্থ হয়

Presidio ২২০টিরও বেশি GDPR এন্টিটি মিস করে

কনফিগারেশন ড্রিফট: একটি লুকানো GDPR ঝুঁকি

আপনার তথ্য সুরক্ষিত করতে প্রস্তুত?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow