GDPR এবং পুরনো স্ক্যান করা ফাইল: PII শনাক্তে OCR
২০২৬ সালের জন্য আপডেট করা হয়েছে
GDPR অডিটে একটি লুকানো ঝুঁকি বারবার উঠে আসে: পুরনো ইমেজ-ভিত্তিক PDF আর্কাইভ।
আইন সংস্থাগুলো ২০ বছরের স্ক্যান করা ক্লায়েন্ট ফাইল ধরে রাখে। হাসপাতালগুলো দশকের পর দশকের রোগীর ফর্ম সংরক্ষণ করে। সরকারি সংস্থাগুলো স্ক্যান করা রেকর্ড সংগ্রহ করে। ব্যাংকগুলোর কাছে ইমেজ করা ঋণ ফাইল থাকে।
এই আর্কাইভগুলোর একটি সাধারণ বৈশিষ্ট্য আছে। ফাইলগুলো রাস্টার ইমেজ — স্ক্যান করা PDF, TIFF, বা JPEG। এগুলোতে কোনো টেক্সট লেয়ার নেই। সাধারণ PII টুলগুলো এগুলো পড়তে পারে না। বেশিরভাগ অ্যানোনিমাইজেশন টুলের কাছে এই ফাইলগুলো যেন অস্তিত্বহীন।
একটি প্রচলিত ধারণা আছে: "এগুলো ইমেজ ফাইল — GDPR এখানে প্রযোজ্য নয়।"
GDPR অনুচ্ছেদ ১৭(১) মানুষকে মুছে ফেলার অধিকার দেয়। রিসাইটাল ২৬ বলে যে অ্যানোনিমাইজেশন ব্যক্তিগত তথ্যকে আওতার বাইরে নিয়ে যায়। কোনোটিই ইমেজ ফরম্যাটের জন্য ব্যতিক্রম রাখে না। যে আইন সংস্থা ১৫ বছরের পুরনো ক্লায়েন্ট ফাইলের মুছে ফেলার অনুরোধ পূরণ করতে পারে না, তাদের একটি কমপ্লায়েন্স ঘাটতি আছে। তাদের কাছে কোনো ছাড় নেই।
আমাদের কমপ্লায়েন্স ওভারভিউ এবং নিরাপত্তা অনুশীলন দেখুন যেখানে আমরা GDPR সহায়তা করি।
শনাক্তকরণ পাইপলাইন কীভাবে কাজ করে
প্রক্রিয়াটি তিনটি পর্যায়ে চলে।
পর্যায় ১ — OCR
OCR ইঞ্জিন ইমেজটি পড়ে এবং টেক্সট বের করে। প্রতিটি শব্দের অবস্থান রেকর্ড করে। আউটপুট হলো স্থানাঙ্কসহ মেশিন-পঠনযোগ্য টেক্সট। হাতে লেখা, বিবর্ণ কালি, বা পুরনো টাইপফেস থাকলে নির্ভুলতা কমে যায়।
পর্যায় ২ — NLP সত্তা শনাক্তকরণ
নেমড এন্টিটি রিকগনিশন (NER) OCR টেক্সট স্ক্যান করে। এটি ব্যক্তির নাম, প্রতিষ্ঠান এবং অবস্থান খুঁজে পায়। প্যাটার্ন ম্যাচিং SSN, ফোন নম্বর এবং অ্যাকাউন্ট নম্বর যোগ করে। প্রতিটি হিটে একটি আস্থার স্কোর থাকে।
পর্যায় ৩ — অ্যানোনিমাইজেশন
শনাক্ত করা সত্তাগুলো টেক্সট আউটপুটে প্রতিস্থাপিত হয়। মূল ইমেজ পরিবর্তন হয় না। ইমেজ পরিবর্তনের জন্য আলাদা রিডাকশন টুলিং প্রয়োজন। অ্যানোনিমাইজড টেক্সট মুছে ফেলার অনুরোধ, DSAR রেসপন্স এবং কমপ্লায়েন্স রেকর্ড সমর্থন করে।
আধুনিক OCR ইঞ্জিনগুলো পরিষ্কার প্রিন্টেড পৃষ্ঠায় ৯৮–৯৯% অক্ষর নির্ভুলতায় পৌঁছায়। হাতে লেখা বা খারাপ স্ক্যানে ৮৫–৯২% এ নেমে আসে। সত্তা-স্তরের নির্ভুলতা অক্ষর-স্তরের নির্ভুলতার চেয়ে বেশি থাকে। কয়েকটি অক্ষর ভুল হলেও একটি নাম শনাক্ত করা যায়।
ব্যবহারিক ফলাফল: OCR নির্ভুলতা প্রভাবিত করে আপনি কতটি সত্তা ধরতে পারবেন। এটি পদ্ধতিটি কাজ করে কিনা তা নির্ধারণ করে না। এমনকি ৯০% নির্ভুলতায়ও, আপনি বেশিরভাগ নাম এবং নম্বর খুঁজে পাবেন। মানের স্তর এখনও প্রয়োজন। পদ্ধতিটি নিজেই সঠিক।
একটি বড় আর্কাইভ প্রক্রিয়াকরণ
বড় পুরনো আর্কাইভগুলো চার-পর্যায়ের কর্মপ্রবাহ অনুসরণ করে।
পর্যায় ১ — তালিকা তৈরি: সমস্ত ইমেজ-ভিত্তিক আর্কাইভের তালিকা করুন। উৎস সিস্টেম এবং তারিখের পরিসীমা উল্লেখ করুন। উচ্চ-মুছে ফেলার ঝুঁকির রেকর্ডগুলো আগে রাখুন। ক্লায়েন্টমুখী ফাইলগুলো অভ্যন্তরীণগুলোর আগে আসে।
পর্যায় ২ — ব্যাচ প্রক্রিয়াকরণ: ব্যাচে OCR এবং PII শনাক্তকরণ চালান। প্রতি ব্যাচে পাঁচ থেকে দশ হাজার ফাইল সাধারণ আকার। প্রক্রিয়াকরণ রাতারাতি চলে। আউটপুট হলো প্রতিটি ফাইলের জন্য একটি PII রিপোর্ট এবং একটি অ্যানোনিমাইজড টেক্সট এক্সট্র্যাক্ট।
পর্যায় ৩ — মুছে ফেলা পূরণ: বিষয় তাদের নাম এবং সময়কাল সহ একটি অনুরোধ পাঠায়। তাদের টোকেনগুলোর জন্য অ্যানোনিমাইজড এক্সট্র্যাক্টগুলো অনুসন্ধান করুন। ফাইলগুলো খুঁজুন। সেগুলো রিডাক্ট করুন। ক্রিয়াটি লগ করুন।
পর্যায় ৪ — চলমান কমপ্লায়েন্স: আর্কাইভ করার আগে নতুন স্ক্যান করা ফাইলগুলোকে একই পাইপলাইনের মধ্য দিয়ে রাখুন। PII রিপোর্টগুলো অনুচ্ছেদ ৩০ প্রক্রিয়াকরণ কার্যক্রমের রেকর্ডের প্রমাণ হিসেবে রাখুন।
কেস স্টাডি: আইন সংস্থার আর্কাইভ
একটি আইন সংস্থার অডিটে ১৯৯৮ থেকে ২০১০ সালের মধ্যে স্ক্যান করা ৮০,০০০ ইমেজ-ভিত্তিক PDF ক্লায়েন্ট চুক্তি পাওয়া গেছে। সাধারণ PII টুলগুলো শূন্য শনাক্তকরণ দেখিয়েছে। ইমেজ ফরম্যাটটি অদৃশ্য ছিল।
গত ১২ মাসে পনেরোজন প্রাক্তন ক্লায়েন্ট মুছে ফেলার অনুরোধ জমা দিয়েছিলেন। সংস্থা বলেছিল: "আমরা নিশ্চিত করতে পারছি না যে আপনার রেকর্ড মুছে ফেলা হয়েছে।" সেই উত্তর GDPR অনুচ্ছেদ ১৭ পূরণ করে না।
সংস্থা যা করেছিল:
- ৫,০০০ করে ব্যাচে সমস্ত ৮০,০০০ ফাইলে OCR এবং PII শনাক্তকরণ চালিয়েছে
- প্রক্রিয়াকরণে প্রায় তিন সপ্তাহ লেগেছে
- ফলাফল: প্রতিটি ফাইলের রিপোর্ট সহ ৮০,০০০ অ্যানোনিমাইজড টেক্সট এক্সট্র্যাক্ট
- ফাইল আইডির সাথে সত্তা সংযুক্তকারী একটি অনুসন্ধানযোগ্য সূচক তৈরি করেছে
প্রক্রিয়াকরণের পরে:
- একজন বিষয়ের জন্য ফাইল খোঁজার সময়: গড়ে ৪ মিনিট
- প্রতি অনুরোধে ফাইল: গড়ে ৬–৮টি
- প্রতি অনুরোধে রিডাকশন সময়: ২০–৩০ মিনিট
সমস্ত ১৫টি বকেয়া অনুরোধ ৩০ দিনের মধ্যে সমাধান করা হয়েছিল।
মূল বিষয়: প্রক্রিয়াকরণের আগে কমপ্লায়েন্স বাধ্যবাধকতা বিদ্যমান ছিল। সংস্থার কাছে কেবল সেটি পূরণের টুল ছিল না। OCR-ভিত্তিক প্রক্রিয়াকরণ নতুন কোনো দায়িত্ব তৈরি করেনি। এটি একটি বিদ্যমান দায়িত্ব পূরণ করা সম্ভব করেছে।
OCR-এর সীমাবদ্ধতা এবং মানের স্তর
হাতে লেখা কম OCR নির্ভুলতার কারণ। হাতে লেখা বিষয়বস্তু প্রক্রিয়াকরণের আগে কম আস্থার থ্রেশহোল্ড সেট করুন।
স্ক্যানের খারাপ মান স্কোর কমায়। OCR চালানোর আগে কনট্রাস্ট উন্নতি এবং ডি-স্কিউয়িং সাহায্য করে।
অস্বাভাবিক লেআউট — মাল্টি-কলাম পৃষ্ঠা, পুরনো আইনি টাইপফেস — কম স্কোর করতে পারে।
কমপ্লায়েন্স কাজের জন্য মানের স্তর নির্ধারণ করুন:
- ৯৫% এর উপরে পৃষ্ঠার নির্ভুলতা: স্বয়ংক্রিয় প্রক্রিয়াকরণ চালান
- ৮০–৯৫%: স্বয়ংক্রিয় প্রক্রিয়াকরণ চালান, তারপর ফ্ল্যাগ করা সত্তাগুলোর জন্য মানব পর্যালোচনা
- ৮০% এর নিচে: ম্যানুয়াল পর্যালোচনায় পাঠান
স্তরযুক্ত পদ্ধতি নিয়ন্ত্রকদের একটি স্পষ্ট উত্তর দেয় যে আপনি কীভাবে নির্ভরযোগ্যতা মূল্যায়ন করেছেন। বেশিরভাগ স্বয়ংক্রিয় টুল উচ্চ-আস্থার ফাইলগুলো পরিচালনা করে। একটি ম্যানুয়াল কিউ বাকিগুলো পরিচালনা করে। থ্রুপুট বেশি থাকে। কমপ্লায়েন্স মানও বেশি থাকে।
আমাদের FAQ OCR-ভিত্তিক প্রক্রিয়াকরণ এবং অডিট ট্রেইল প্রয়োজনীয়তা সম্পর্কে সাধারণ প্রশ্নগুলো কভার করে।