العودة إلى المدونةالامتثال لـ GDPR

المستندات الممسوحة ضوئياً القديمة: إخفاء OCR وتوافق GDPR

المستندات الممسوحة ضوئياً تحتوي على بيانات شخصية. استخدم OCR والإخفاء معاً لضمان توافق GDPR.

April 21, 20267 دقيقة قراءة
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

التحدي: OCR والبيانات الشخصية

المستندات الممسوحة ضوئياً (فاكسات قديمة، صور الوثائق) غالباً تحتوي على:

  • أسماء العملاء
  • أرقام الهاتف
  • عناوين بريد إلكترونية
  • معرفات الدفع
  • توقيعات

عندما تحول OCR هذه الصور إلى نص، يجب إخفاء البيانات الشخصية.

الحل: OCR + الإخفاء

from pdf2image import convert_from_path
from pytesseract import pytesseract
from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine

analyzer = AnalyzerEngine()
anonymizer = AnonymizerEngine()

def anonymize_scanned_document(pdf_path):
    """إخفاء البيانات الشخصية في المستندات الممسوحة ضوئياً"""
    
    # تحويل PDF إلى صور
    images = convert_from_path(pdf_path)
    
    anonymized_texts = []
    
    for image in images:
        # استخراج النص باستخدام OCR
        text = pytesseract.image_to_string(image)
        
        # تحليل وإخفاء
        results = analyzer.analyze(text=text, language="en")
        anonymized = anonymizer.anonymize(text=text, analyzer_results=results)
        
        anonymized_texts.append(anonymized.text)
    
    return "
---
".join(anonymized_texts)

# الاستخدام
result = anonymize_scanned_document("old_document.pdf")
print(result)

الامتثال

  • GDPR: المستندات القديمة تحتاج إلى نفس مستوى الحماية
  • HIPAA: PHI في الصور الممسوحة ضوئياً = خرق

هل أنت مستعد لحماية بياناتك؟

ابدأ بإخفاء المعلومات الشخصية مع أكثر من 285 نوع كيان عبر 48 لغة.