GDPR و پروندههای اسکنشده قدیمی: OCR برای شناسایی اطلاعات شخصی
بروزرسانی برای ۲۰۲۶
ممیزیهای GDPR اغلب یک ریسک پنهان مشترک را آشکار میکنند: آرشیوهای قدیمی PDF مبتنی بر تصویر.
دفاتر حقوقی ۲۰ سال پرونده اسکنشده مشتریان را نگه میدارند. بیمارستانها دههها فرم بیمار دارند. نهادهای دولتی مدارک اسکنشده ذخیره میکنند. بانکها پروندههای تصویری وام دارند.
این آرشیوها یک ویژگی مشترک دارند: فایلها تصاویر رستری هستند — PDF اسکنشده، TIFF، یا JPEG. هیچ لایه متنی وجود ندارد. ابزارهای استاندارد شناسایی اطلاعات شخصی نمیتوانند آنها را بخوانند. برای اکثر ابزارهای ناشناسسازی، این فایلها وجود ندارند.
یک باور رایج: «اینها فایلهای تصویری هستند — GDPR برای آنها اعمال نمیشود.»
ماده ۱۷(۱) GDPR به افراد حق پاکسازی میدهد. بند ۲۶ میگوید ناشناسسازی اطلاعات شخصی را از دامنه خارج میکند. هیچکدام استثنایی برای قالبهای تصویری قائل نمیشوند. یک دفتر حقوقی که نمیتواند درخواست پاکسازی مربوط به یک پرونده ۱۵ ساله را انجام دهد، شکاف انطباق دارد — نه معافیت.
راهنمای انطباق ما و شیوههای امنیتی را برای اطلاع از حمایت ما از GDPR ببینید.
نحوه عملکرد خط لوله شناسایی
فرآیند در سه مرحله اجرا میشود.
مرحله ۱ — OCR
موتور OCR تصویر را میخواند و متن را استخراج میکند. موقعیت هر کلمه را ثبت میکند. خروجی متن قابل پردازش با مختصات است. دقت در صورت وجود دستنوشته، جوهر کمرنگ، یا حروف قدیمی کاهش مییابد.
مرحله ۲ — شناسایی موجودیت با NLP
تشخیص موجودیت نامدار (NER) متن OCR را اسکن میکند. نام افراد، سازمانها و مکانها را پیدا میکند. تطبیق الگو، شمارههای تأمین اجتماعی، شماره تلفن و شماره حساب را اضافه میکند. هر نتیجه یک امتیاز اطمینان دریافت میکند.
مرحله ۳ — ناشناسسازی
موجودیتهای شناساییشده در خروجی متنی جایگزین میشوند. تصویر اصلی تغییر نمیکند. تغییر تصویر نیاز به ابزار حذف جداگانه دارد. متن ناشناسشده از درخواستهای پاکسازی، پاسخ به درخواستهای دسترسی به داده (DSAR) و مدارک انطباق پشتیبانی میکند.
موتورهای مدرن OCR در صفحات چاپی تمیز به دقت ۹۸–۹۹٪ کاراکتر میرسند. دستنوشته یا اسکنهای ضعیف به ۸۵–۹۲٪ کاهش مییابند. دقت در سطح موجودیت معمولاً بالاتر از سطح کاراکتر است. یک نام حتی با چند حرف اشتباه هم قابل شناسایی است.
نتیجه عملی: دقت OCR بر تعداد موجودیتهایی که پیدا میکنید تأثیر میگذارد. این موضوع تعیین نمیکند که روش کار میکند یا نه. حتی با دقت ۹۰٪، اکثر نامها و شمارهها پیدا میشوند. ردهبندی کیفیت همچنان ضروری است. خود روش معتبر است.
پردازش یک آرشیو بزرگ
آرشیوهای قدیمی بزرگ از یک جریان کاری چهار مرحلهای پیروی میکنند.
فاز ۱ — موجودی: فهرست همه آرشیوهای مبتنی بر تصویر را تهیه کنید. سیستم منبع و بازه زمانی را یادداشت کنید. پروندههای با ریسک پاکسازی بالا را اولویتبندی کنید.
فاز ۲ — پردازش دستهای: OCR و شناسایی اطلاعات شخصی را در دستهها اجرا کنید. پنج تا ده هزار فایل در هر دسته یک اندازه رایج است. پردازش در شب اجرا میشود.
فاز ۳ — انجام درخواستهای پاکسازی: موضوع درخواست را با نام و دوره زمانی ارسال میکند. در عصارههای ناشناسشده به دنبال توکنهای آنها بگردید.
فاز ۴ — انطباق مداوم: پروندههای اسکنشده جدید را قبل از آرشیو از همان خط لوله عبور دهید.
مطالعه موردی: آرشیو یک دفتر حقوقی
یک ممیزی دفتر حقوقی ۸۰,۰۰۰ قرارداد مشتری PDF مبتنی بر تصویر اسکنشده از ۱۹۹۸ تا ۲۰۱۰ پیدا کرد. ابزارهای استاندارد شناسایی اطلاعات شخصی هیچ موردی را شناسایی نکردند. قالب تصویری نامرئی بود.
پانزده مشتری سابق در ۱۲ ماه گذشته درخواست پاکسازی داده داشتند. دفتر گفت: «نمیتوانیم تأیید کنیم که مدارک شما پاک شدهاند.» این پاسخ الزامات ماده ۱۷ GDPR را برآورده نمیکند.
اقدامات دفتر:
- اجرای OCR و شناسایی اطلاعات شخصی بر روی تمام ۸۰,۰۰۰ فایل در دستههای ۵,۰۰۰ تایی
- پردازش حدود سه هفته طول کشید
- نتیجه: ۸۰,۰۰۰ عصاره متنی ناشناسشده با گزارشهای هر فایل
- ایجاد یک فهرست قابل جستجو که موجودیتها را به شناسههای فایل متصل میکند
پس از پردازش:
- پیدا کردن فایلها برای یک موضوع: به طور میانگین ۴ دقیقه
- فایلها در هر درخواست: به طور میانگین ۶–۸
- زمان حذف در هر درخواست: ۲۰–۳۰ دقیقه
همه ۱۵ درخواست معلق در ۳۰ روز حل شدند.
نکته کلیدی: تعهد انطباق قبل از پردازش وجود داشت. دفتر فقط ابزارهای لازم برای انجام آن را نداشت.
محدودیتهای OCR و ردهبندی کیفیت
دستنوشته دقت OCR پایینتری دارد. قبل از پردازش محتوای دستنوشته، آستانه اطمینان پایینتری تنظیم کنید.
کیفیت ضعیف اسکن امتیازها را کاهش میدهد. بهبود کنتراست و تصحیح انحراف قبل از اجرای OCR کمک میکند.
چیدمانهای غیرمعمول — صفحات چند ستونی، حروف حقوقی قدیمی — نیز ممکن است امتیاز پایینتری داشته باشند.
ردهبندی کیفیت برای کار انطباق:
- بالای ۹۵٪ دقت صفحه: پردازش خودکار
- ۸۰–۹۵٪: پردازش خودکار، سپس بررسی انسانی برای موجودیتهای پرچمگذاریشده
- زیر ۸۰٪: ارسال به بررسی دستی
یک رویکرد درجهبندیشده به نهادهای نظارتی پاسخ روشنی درباره نحوه ارزیابی قابلیت اطمینان میدهد.
پرسشهای متداول ما سؤالات رایج درباره پردازش مبتنی بر OCR و الزامات ردپای حسابرسی را پوشش میدهد.