اللائحة GDPR والملفات الممسوحة القديمة: التعرف الضوئي على النصوص لكشف البيانات الشخصية
محدَّث لعام 2026
كثيرًا ما تكشف عمليات تدقيق اللائحة GDPR عن خطر خفي متكرر: أرشيفات PDF المبنية على صور قديمة.
تحتفظ مكاتب المحاماة بملفات عملاء ممسوحة تمتد لعشرين عامًا. وتُخزِّن المستشفيات عقودًا من نماذج المرضى الورقية. وتحتفظ الجهات الحكومية بسجلات ممسوحة، فيما تملك البنوك ملفات قروض مصوَّرة.
تشترك هذه الأرشيفات في سمة واحدة: الملفات صور نقطية — ملفات PDF ممسوحة وTIFF وJPEG — لا تحتوي على طبقة نصية. ولا تستطيع أدوات البيانات الشخصية المعيارية قراءتها؛ فهذه الملفات، من منظور معظم أدوات إخفاء الهوية، كأنها غير موجودة.
اعتقاد شائع: «هذه ملفات صور — لا تسري عليها اللائحة GDPR.»
تمنح المادة 17(1) من اللائحة GDPR الأفراد حق الحذف. ويوضح الديباجة رقم 26 أن إخفاء الهوية يُخرج المعلومات الشخصية من النطاق. ولا تنص كلتاهما على أي استثناء يتعلق بصيغ الملفات. فمكتب المحاماة الذي يعجز عن الاستجابة لطلب حذف ملف عميل يعود إلى خمسة عشر عامًا يواجه ثغرة امتثال حقيقية، لا إعفاءً قانونيًا.
راجع نظرة عامة على الامتثال وممارساتنا الأمنية للاطلاع على كيفية دعمنا للائحة GDPR.
كيف يعمل خط أنابيب الكشف
تسير العملية في ثلاث مراحل.
المرحلة الأولى — التعرف الضوئي على النصوص (OCR)
يقرأ محرك OCR الصورة ويستخرج النص منها، مُسجِّلًا موضع كل كلمة. والمخرج عبارة عن نص قابل للقراءة الآلية مع إحداثياته. وتنخفض الدقة حين يحتوي الملف على خط يد أو حبر باهت أو أحرف طباعية قديمة.
المرحلة الثانية — كشف الكيانات بالمعالجة اللغوية الطبيعية (NLP)
يفحص نظام التعرف على الكيانات المُسمَّاة (NER) النص المستخرج بحثًا عن أسماء الأشخاص والمنظمات والمواقع. ويُضيف مطابقة الأنماط أرقام الضمان الاجتماعي وأرقام الهواتف وأرقام الحسابات. ويحصل كل كشف على درجة ثقة.
المرحلة الثالثة — إخفاء الهوية
تُستبدل الكيانات المكتشفة في مخرج النص. ولا يُعدَّل الملف الأصلي؛ إذ يستلزم تعديل الصورة أدوات تنقيح منفصلة. ويدعم النص المُخفاة هويته طلباتِ الحذف واستجاباتِ طلبات وصول موضوع البيانات (DSAR) وسجلاتِ الامتثال.
تبلغ دقة محركات OCR الحديثة 98–99% على مستوى الأحرف للصفحات المطبوعة الواضحة. أما خط اليد أو المسح المتردي الجودة فيخفض الدقة إلى 85–92%. وعادةً ما تكون الدقة على مستوى الكيانات أعلى منها على مستوى الأحرف، إذ يمكن التعرف على الاسم حتى مع وجود بعض الأخطاء الحرفية.
الخلاصة العملية: تؤثر دقة OCR في عدد الكيانات المكتشفة، لكنها لا تُحدد ما إذا كانت الطريقة ناجعة. حتى عند دقة 90%، ستجد معظم الأسماء والأرقام. تبقى المستويات الجودية ضرورية، لكن الطريقة ذاتها سليمة.
معالجة أرشيف كبير الحجم
تسير أرشيفات البيانات القديمة الكبيرة وفق سير عمل من أربع مراحل.
المرحلة الأولى — الجرد: أحصِ جميع الأرشيفات المبنية على صور. لاحظ نظام المصدر والنطاق الزمني. أعطِ الأولوية للسجلات الأعلى خطورة من حيث طلبات الحذف، مقدِّمًا ملفات العملاء على الملفات الداخلية.
المرحلة الثانية — المعالجة الدُّفعية: شغِّل OCR وكشف البيانات الشخصية على دُفعات. خمسة إلى عشرة آلاف ملف لكل دُفعة هو حجم شائع. تعمل المعالجة ليلًا. والمخرج تقرير بيانات شخصية ومستخلص نصي مُخفى الهوية لكل ملف.
المرحلة الثالثة — استيفاء طلبات الحذف: يُرسل صاحب البيانات طلبًا باسمه والفترة الزمنية. ابحث في المستخلصات المُخفاة عن رموزه. حدِّد الملفات. نقِّحها. سجِّل الإجراء.
المرحلة الرابعة — الامتثال المستمر: أخضع الملفات الممسوحة الجديدة لخط الأنابيب ذاته قبل أرشفتها. احتفظ بتقارير البيانات الشخصية بوصفها أدلة لسجلات أنشطة المعالجة وفق المادة 30.
دراسة حالة: أرشيف مكتب محاماة
كشف تدقيق في مكتب محاماة عن 80,000 ملف PDF لعقود عملاء ممسوحة بين عامَي 1998 و2010. أظهرت أدوات البيانات الشخصية المعيارية صفر اكتشافات؛ فصيغة الصورة كانت غير مرئية لها.
كان خمسة عشر عميلًا سابقًا قد قدَّموا طلبات حذف خلال الاثني عشر شهرًا الماضية. أجاب المكتب: «لا يمكننا التأكد من حذف سجلاتكم.» هذه الإجابة لا تستوفي المادة 17 من اللائحة GDPR.
ما فعله المكتب:
- شغَّل OCR وكشف البيانات الشخصية على 80,000 ملف في دُفعات من 5,000
- استغرقت المعالجة نحو ثلاثة أسابيع
- النتيجة: 80,000 مستخلص نصي مُخفى الهوية مع تقارير لكل ملف
- بناء فهرس قابل للبحث يربط الكيانات بمعرفات الملفات
بعد المعالجة:
- متوسط وقت البحث عن ملفات شخص بعينه: 4 دقائق
- متوسط الملفات لكل طلب: 6–8 ملفات
- وقت التنقيح لكل طلب: 20–30 دقيقة
جرى حل جميع الطلبات الخمسة عشر المعلَّقة في غضون 30 يومًا.
النقطة الجوهرية: كان الالتزام بالامتثال قائمًا قبل المعالجة، والمكتب كان يفتقر فحسب إلى الأدوات اللازمة. لم تُنشئ المعالجة المستندة إلى OCR واجبًا جديدًا، بل جعلت الوفاء بواجب قائم أمرًا ممكنًا.
قيود OCR ومستويات الجودة
خط اليد يُنتج دقة OCR أدنى. اضبط حد الثقة على مستوى أدنى قبل معالجة المحتوى المكتوب بخط يد.
رداءة جودة المسح تخفض الدرجات. تُفيد تحسينات التباين وتصحيح الميلان قبل تشغيل OCR.
التخطيطات غير الاعتيادية — كالصفحات متعددة الأعمدة والطباعة القانونية القديمة — قد تُسجِّل أيضًا درجات أدنى.
حدِّد مستويات جودة لعمل الامتثال:
- فوق 95% دقة الصفحة: شغِّل المعالجة الآلية
- 80–95%: شغِّل المعالجة الآلية، ثم مراجعة بشرية للكيانات المُعلَّمة
- دون 80%: أحل إلى المراجعة اليدوية
يمنح النهج متعدد المستويات الجهات التنظيمية إجابة واضحة حول كيفية تقييمك للموثوقية. تتولى أدوات المعالجة الآلية ملفات الثقة العالية، بينما تُعالج قائمة انتظار يدوية البقية. تبقى الإنتاجية عالية، وجودة الامتثال مصونة.
يتناول قسم الأسئلة الشائعة الأسئلة الشائعة حول المعالجة المستندة إلى OCR ومتطلبات سجلات التدقيق.