التحدي: OCR والبيانات الشخصية
المستندات الممسوحة ضوئياً (فاكسات قديمة، صور الوثائق) غالباً تحتوي على:
- أسماء العملاء
- أرقام الهاتف
- عناوين بريد إلكترونية
- معرفات الدفع
- توقيعات
عندما تحول OCR هذه الصور إلى نص، يجب إخفاء البيانات الشخصية.
الحل: OCR + الإخفاء
from pdf2image import convert_from_path
from pytesseract import pytesseract
from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine
analyzer = AnalyzerEngine()
anonymizer = AnonymizerEngine()
def anonymize_scanned_document(pdf_path):
"""إخفاء البيانات الشخصية في المستندات الممسوحة ضوئياً"""
# تحويل PDF إلى صور
images = convert_from_path(pdf_path)
anonymized_texts = []
for image in images:
# استخراج النص باستخدام OCR
text = pytesseract.image_to_string(image)
# تحليل وإخفاء
results = analyzer.analyze(text=text, language="en")
anonymized = anonymizer.anonymize(text=text, analyzer_results=results)
anonymized_texts.append(anonymized.text)
return "
---
".join(anonymized_texts)
# الاستخدام
result = anonymize_scanned_document("old_document.pdf")
print(result)
الامتثال
- GDPR: المستندات القديمة تحتاج إلى نفس مستوى الحماية
- HIPAA: PHI في الصور الممسوحة ضوئياً = خرق