anonym.legal
กลับไปที่บล็อกGDPR & การปฏิบัติตาม

GDPR และเอกสารสแกนเก่า: วิธีประมวลผลเอกสาร 80,000...

สิทธิ์การลบของ GDPR ใช้กับข้อมูลส่วนตัว 'โดยไม่คำนึงถึงรูปแบบ' PDF ที่เป็นรูปภาพจากเอกสารเก่าไม่ได้รับการยกเว้น วิธี OCR-based PII detection...

April 21, 20267 อ่านประมาณ
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

ปัญหาเอกสารเก่าที่ไม่มีใครพูดถึง

องค์กรที่ทำการตรวจสอบการปฏิบัติตาม GDPR มักค้นพบความเสี่ยงที่ซ่อนอยู่ในหมวดเดียวกัน: คลังเก็บ PDF ที่เป็นรูปภาพจากก่อนการนำโปรแกรมดิจิทัลมาใช้

  • สำนักงานกฎหมายที่มีไฟล์ลูกค้าสแกน 20 ปี
  • ผู้ให้บริการสุขภาพที่มีบันทึกผู้ป่วยสแกน
  • หน่วยงานทรัพยากรบุคคลที่มีสัญญาจ้างงานเก่า
  • สถาบันการเงินที่มีแบบฟอร์มสมัครสินเชื่อเก่า

GDPR ใช้กับเอกสารสแกนหรือไม่

ใช่ อย่างเปิดเผย GDPR มาตรา 4(1) กำหนด "ข้อมูลส่วนตัว" ว่าเป็น "ข้อมูลใดๆ ที่เกี่ยวข้องกับบุคคลธรรมดาที่ระบุหรือระบุได้" โดยไม่มีข้อยกเว้นสำหรับรูปแบบ ข้อมูลส่วนตัวใน:

  • PDF ที่เป็นรูปภาพ (สแกน)
  • ไฟล์ TIFF หรือ JPEG ของเอกสาร
  • ไฟล์เสียงหรือวีดีโอ

ทั้งหมดอยู่ภายใต้ GDPR รวมถึงสิทธิ์การเข้าถึง การลบ และความสามารถในการพกพา

อุปสรรคทางเทคนิค: ข้อความที่ไม่สามารถค้นหาได้

เอกสารสแกนจัดเก็บเนื้อหาเป็นรูปภาพ ไม่ใช่ข้อความ ซึ่งหมายความว่า:

  • ไม่สามารถค้นหาชื่อหรือตัวระบุได้ด้วย full-text search
  • เครื่องมือ DLP ทั่วไปมองไม่เห็น PII ในเนื้อหารูปภาพ
  • CTRL+F ในโปรแกรม PDF viewer ล้มเหลวบนสแกน

การแก้ปัญหา: OCR-based PII Detection

  1. OCR (Optical Character Recognition): แปลงรูปภาพเอกสารเป็นข้อความที่ค้นหาได้
  2. การตรวจจับ PII: เรียกใช้การวิเคราะห์ PII บนข้อความที่สกัดออกมา
  3. การทำให้ไม่ระบุตัวตนหรือการลบ: แก้ไขตำแหน่งที่พบ PII ในรูปภาพต้นฉบับ
  4. การตรวจสอบ: ตรวจสอบผลลัพธ์ด้วยสายตาสำหรับกรณีที่ยาก

ความแม่นยำของ OCR กับคุณภาพรูปภาพ

ปัจจัยที่ส่งผลต่อความแม่นยำ OCR:

คุณภาพรูปภาพความแม่นยำ OCRผล
สแกนที่ดี (300+ DPI)97-99%เชื่อถือได้สำหรับ PII detection
สแกนคุณภาพปานกลาง (150-300 DPI)90-95%ยังใช้ได้ ตรวจสอบด้วยสายตาสำหรับกรณีขอบ
สแกนคุณภาพต่ำ (<150 DPI)70-85%ต้องการการตรวจสอบด้วยตนเองมากขึ้น
เอกสารที่เขียนด้วยมือ60-80%ต้องการการตรวจสอบด้วยตนเองอย่างมาก

กลยุทธ์สำหรับโครงการ GDPR เอกสารสแกนขนาดใหญ่

สำหรับ 80,000 เอกสาร:

  1. จัดลำดับความสำคัญ: เอกสารที่ต้องการสิทธิ์การลบก่อน จากนั้นเอกสารที่มีความเสี่ยงสูง
  2. แบ่งกลุ่มตามคุณภาพรูปภาพ: ประมวลผลสแกนคุณภาพสูงด้วยระบบอัตโนมัติ ทบทวนสแกนคุณภาพต่ำด้วยตนเอง
  3. ใช้การประมวลผลแบบกลุ่ม: เรียกใช้ชุดกลางคืน 1,000 เอกสาร/ชั่วโมงแทนการประมวลผลทีละรายการ
  4. บันทึกทุกอย่าง: บันทึกการตรวจสอบว่าเอกสารใดได้รับการประมวลผลเมื่อไหร่ด้วยผลลัพธ์อะไร

แหล่งที่มา:

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.