ปัญหาเอกสารเก่าที่ไม่มีใครพูดถึง
องค์กรที่ทำการตรวจสอบการปฏิบัติตาม GDPR มักค้นพบความเสี่ยงที่ซ่อนอยู่ในหมวดเดียวกัน: คลังเก็บ PDF ที่เป็นรูปภาพจากก่อนการนำโปรแกรมดิจิทัลมาใช้
- สำนักงานกฎหมายที่มีไฟล์ลูกค้าสแกน 20 ปี
- ผู้ให้บริการสุขภาพที่มีบันทึกผู้ป่วยสแกน
- หน่วยงานทรัพยากรบุคคลที่มีสัญญาจ้างงานเก่า
- สถาบันการเงินที่มีแบบฟอร์มสมัครสินเชื่อเก่า
GDPR ใช้กับเอกสารสแกนหรือไม่
ใช่ อย่างเปิดเผย GDPR มาตรา 4(1) กำหนด "ข้อมูลส่วนตัว" ว่าเป็น "ข้อมูลใดๆ ที่เกี่ยวข้องกับบุคคลธรรมดาที่ระบุหรือระบุได้" โดยไม่มีข้อยกเว้นสำหรับรูปแบบ ข้อมูลส่วนตัวใน:
- PDF ที่เป็นรูปภาพ (สแกน)
- ไฟล์ TIFF หรือ JPEG ของเอกสาร
- ไฟล์เสียงหรือวีดีโอ
ทั้งหมดอยู่ภายใต้ GDPR รวมถึงสิทธิ์การเข้าถึง การลบ และความสามารถในการพกพา
อุปสรรคทางเทคนิค: ข้อความที่ไม่สามารถค้นหาได้
เอกสารสแกนจัดเก็บเนื้อหาเป็นรูปภาพ ไม่ใช่ข้อความ ซึ่งหมายความว่า:
- ไม่สามารถค้นหาชื่อหรือตัวระบุได้ด้วย full-text search
- เครื่องมือ DLP ทั่วไปมองไม่เห็น PII ในเนื้อหารูปภาพ
- CTRL+F ในโปรแกรม PDF viewer ล้มเหลวบนสแกน
การแก้ปัญหา: OCR-based PII Detection
- OCR (Optical Character Recognition): แปลงรูปภาพเอกสารเป็นข้อความที่ค้นหาได้
- การตรวจจับ PII: เรียกใช้การวิเคราะห์ PII บนข้อความที่สกัดออกมา
- การทำให้ไม่ระบุตัวตนหรือการลบ: แก้ไขตำแหน่งที่พบ PII ในรูปภาพต้นฉบับ
- การตรวจสอบ: ตรวจสอบผลลัพธ์ด้วยสายตาสำหรับกรณีที่ยาก
ความแม่นยำของ OCR กับคุณภาพรูปภาพ
ปัจจัยที่ส่งผลต่อความแม่นยำ OCR:
| คุณภาพรูปภาพ | ความแม่นยำ OCR | ผล |
|---|---|---|
| สแกนที่ดี (300+ DPI) | 97-99% | เชื่อถือได้สำหรับ PII detection |
| สแกนคุณภาพปานกลาง (150-300 DPI) | 90-95% | ยังใช้ได้ ตรวจสอบด้วยสายตาสำหรับกรณีขอบ |
| สแกนคุณภาพต่ำ (<150 DPI) | 70-85% | ต้องการการตรวจสอบด้วยตนเองมากขึ้น |
| เอกสารที่เขียนด้วยมือ | 60-80% | ต้องการการตรวจสอบด้วยตนเองอย่างมาก |
กลยุทธ์สำหรับโครงการ GDPR เอกสารสแกนขนาดใหญ่
สำหรับ 80,000 เอกสาร:
- จัดลำดับความสำคัญ: เอกสารที่ต้องการสิทธิ์การลบก่อน จากนั้นเอกสารที่มีความเสี่ยงสูง
- แบ่งกลุ่มตามคุณภาพรูปภาพ: ประมวลผลสแกนคุณภาพสูงด้วยระบบอัตโนมัติ ทบทวนสแกนคุณภาพต่ำด้วยตนเอง
- ใช้การประมวลผลแบบกลุ่ม: เรียกใช้ชุดกลางคืน 1,000 เอกสาร/ชั่วโมงแทนการประมวลผลทีละรายการ
- บันทึกทุกอย่าง: บันทึกการตรวจสอบว่าเอกสารใดได้รับการประมวลผลเมื่อไหร่ด้วยผลลัพธ์อะไร
แหล่งที่มา: