GDPR และไฟล์สแกนเก่า: การใช้ OCR สำหรับข้อมูลส่วนบุคคล
อัปเดตสำหรับปี 2026
การตรวจสอบ GDPR มักพบความเสี่ยงที่ซ่อนอยู่ซึ่งเกิดขึ้นซ้ำๆ: คลังเก็บ PDF รูปภาพเก่าที่ยังไม่ได้รับการจัดการ
สำนักงานกฎหมายเก็บรักษาไฟล์ลูกค้าที่สแกนมาตลอด 20 ปี โรงพยาบาลเก็บแบบฟอร์มผู้ป่วยนับสิบปี หน่วยงานราชการจัดเก็บบันทึกที่สแกน ธนาคารมีไฟล์สินเชื่อที่แปลงเป็นรูปภาพ
คลังข้อมูลเหล่านี้มีลักษณะร่วมกันประการหนึ่ง: ไฟล์เป็นรูปภาพแบบ raster ได้แก่ PDF สแกน, TIFF หรือ JPEG ไม่มีชั้นข้อความ เครื่องมือตรวจหาข้อมูลส่วนบุคคลทั่วไปไม่สามารถอ่านได้ สำหรับเครื่องมือไม่แสดงที่มาส่วนใหญ่ ไฟล์เหล่านี้เสมือนไม่มีอยู่จริง
ความเชื่อที่พบบ่อย: "ไฟล์เหล่านี้เป็นไฟล์รูปภาพ — GDPR ไม่บังคับใช้"
มาตรา 17(1) ของ GDPR ให้สิทธิ์ผู้คนในการขอลบข้อมูล Recital 26 ระบุว่าการทำให้ข้อมูลไม่ระบุตัวตนจะนำข้อมูลส่วนบุคคลออกนอกขอบเขต ไม่มีข้อใดที่ยกเว้นรูปแบบไฟล์รูปภาพ สำนักงานกฎหมายที่ไม่สามารถตอบสนองคำขอลบข้อมูลสำหรับไฟล์ลูกค้าอายุ 15 ปีมีช่องโหว่ด้านการปฏิบัติตามกฎระเบียบ ไม่ใช่การยกเว้น
ดู ภาพรวมการปฏิบัติตามกฎระเบียบ และ แนวปฏิบัติด้านความปลอดภัย ของเราสำหรับวิธีที่เราสนับสนุน GDPR
กระบวนการตรวจหาข้อมูลทำงานอย่างไร
กระบวนการทำงานใน 3 ขั้นตอน
ขั้นตอนที่ 1 — OCR
เครื่องมือ OCR อ่านรูปภาพและดึงข้อความออกมา บันทึกตำแหน่งของแต่ละคำ ผลลัพธ์เป็นข้อความที่เครื่องอ่านได้พร้อมพิกัด ความแม่นยำลดลงเมื่อมีลายมือ หมึกจาง หรือแบบอักษรเก่า
ขั้นตอนที่ 2 — การตรวจหาเอนทิตีด้วย NLP
การรู้จำเอนทิตีที่มีชื่อ (NER) สแกนข้อความ OCR ค้นหาชื่อบุคคล องค์กร และสถานที่ การจับคู่รูปแบบเพิ่มหมายเลข SSN หมายเลขโทรศัพท์ และหมายเลขบัญชี แต่ละรายการที่พบจะได้รับคะแนนความเชื่อมั่น
ขั้นตอนที่ 3 — การทำให้ไม่ระบุตัวตน
เอนทิตีที่ตรวจพบจะถูกแทนที่ในผลลัพธ์ข้อความ รูปภาพต้นฉบับไม่เปลี่ยนแปลง การเปลี่ยนแปลงรูปภาพต้องใช้เครื่องมือแก้ไขแยกต่างหาก ข้อความที่ไม่ระบุตัวตนรองรับคำขอลบข้อมูล การตอบกลับ DSAR และบันทึกการปฏิบัติตามกฎระเบียบ
เครื่องมือ OCR สมัยใหม่มีความแม่นยำระดับอักขระ 98–99% สำหรับหน้าที่พิมพ์สะอาด ลายมือหรือการสแกนที่เสื่อมสภาพลดลงเหลือ 85–92% ความแม่นยำระดับเอนทิตีมักสูงกว่าระดับอักขระ ชื่อยังคงระบุได้แม้จะมีตัวอักษรผิดบางตัว
สาระสำคัญในทางปฏิบัติ: ความแม่นยำของ OCR ส่งผลต่อจำนวนเอนทิตีที่คุณตรวจพบ ไม่ได้กำหนดว่าวิธีการจะได้ผลหรือไม่ แม้ที่ความแม่นยำ 90% คุณยังพบชื่อและตัวเลขส่วนใหญ่ ยังคงต้องการระดับคุณภาพที่แตกต่างกัน แต่วิธีการนั้นสมเหตุสมผล
การประมวลผลคลังข้อมูลขนาดใหญ่
คลังข้อมูลเก่าขนาดใหญ่ใช้ขั้นตอนการทำงาน 4 ระยะ
ระยะที่ 1 — สินค้าคงคลัง: ระบุคลังข้อมูลที่ใช้รูปภาพทั้งหมด บันทึกระบบต้นทางและช่วงวันที่ ให้ความสำคัญกับบันทึกที่มีความเสี่ยงการลบข้อมูลสูงก่อน ไฟล์ที่เผชิญลูกค้ามาก่อนไฟล์ภายใน
ระยะที่ 2 — การประมวลผลแบบแบตช์: รัน OCR และการตรวจหาข้อมูลส่วนบุคคลเป็นแบตช์ ห้าถึงหมื่นไฟล์ต่อแบตช์เป็นขนาดที่พบบ่อย การประมวลผลทำงานข้ามคืน ผลลัพธ์คือรายงานข้อมูลส่วนบุคคลและข้อความที่ไม่ระบุตัวตนสำหรับแต่ละไฟล์
ระยะที่ 3 — การตอบสนองคำขอลบข้อมูล: เจ้าของข้อมูลส่งคำขอพร้อมชื่อและช่วงเวลา ค้นหาโทเค็นในข้อความที่ไม่ระบุตัวตน ค้นหาไฟล์ แก้ไข บันทึกการดำเนินการ
ระยะที่ 4 — การปฏิบัติตามกฎระเบียบต่อเนื่อง: นำไฟล์สแกนใหม่ผ่านกระบวนการเดิมก่อนจัดเก็บ เก็บรายงานข้อมูลส่วนบุคคลเป็นหลักฐาน Article 30 Records of Processing Activities
กรณีศึกษา: คลังข้อมูลสำนักงานกฎหมาย
การตรวจสอบสำนักงานกฎหมายพบสัญญาลูกค้า PDF รูปภาพ 80,000 ฉบับที่สแกนตั้งแต่ปี 1998 ถึง 2010 เครื่องมือตรวจหาข้อมูลส่วนบุคคลทั่วไปแสดงผลตรวจพบเป็นศูนย์ รูปแบบรูปภาพไม่ปรากฏ
อดีตลูกค้า 15 รายส่งคำขอลบข้อมูลในช่วง 12 เดือนก่อนหน้า สำนักงานตอบว่า: "เราไม่สามารถยืนยันได้ว่าบันทึกของคุณถูกลบแล้ว" คำตอบนั้นไม่เป็นไปตาม GDPR มาตรา 17
สิ่งที่สำนักงานดำเนินการ:
- รัน OCR และการตรวจหาข้อมูลส่วนบุคคลบนไฟล์ทั้ง 80,000 ไฟล์เป็นแบตช์ละ 5,000
- การประมวลผลใช้เวลาประมาณสามสัปดาห์
- ผลลัพธ์: ข้อความที่ไม่ระบุตัวตน 80,000 รายการพร้อมรายงานต่อไฟล์
- สร้างดัชนีที่ค้นหาได้เชื่อมโยงเอนทิตีกับ ID ไฟล์
หลังการประมวลผล:
- การค้นหาไฟล์สำหรับหนึ่งเจ้าของข้อมูล: เฉลี่ย 4 นาที
- ไฟล์ต่อคำขอ: เฉลี่ย 6–8 ไฟล์
- เวลาแก้ไขต่อคำขอ: 20–30 นาที
คำขอค้างทั้ง 15 รายการได้รับการแก้ไขภายใน 30 วัน
ประเด็นสำคัญ: ภาระหน้าที่การปฏิบัติตามกฎระเบียบมีอยู่ก่อนการประมวลผล สำนักงานเพียงขาดเครื่องมือที่จะทำตามภาระนั้น การประมวลผลด้วย OCR ไม่ได้สร้างหน้าที่ใหม่ แต่ทำให้หน้าที่ที่มีอยู่สามารถปฏิบัติได้
ข้อจำกัดของ OCR และระดับคุณภาพ
ลายมือ มีความแม่นยำ OCR ต่ำกว่า กำหนดเกณฑ์ความเชื่อมั่นที่ต่ำกว่าก่อนประมวลผลเนื้อหาลายมือ
คุณภาพการสแกนต่ำ ลดคะแนน การปรับคอนทราสต์และการแก้ไขความเอียงช่วยก่อนรัน OCR
เลย์เอาต์ที่ผิดปกติ — หน้าหลายคอลัมน์ แบบอักษรกฎหมายเก่า — อาจได้คะแนนต่ำเช่นกัน
กำหนดระดับคุณภาพสำหรับงานการปฏิบัติตามกฎระเบียบ:
- ความแม่นยำหน้าสูงกว่า 95%: รันการประมวลผลอัตโนมัติ
- 80–95%: รันการประมวลผลอัตโนมัติ จากนั้นการตรวจสอบโดยมนุษย์สำหรับเอนทิตีที่ถูกระบุ
- ต่ำกว่า 80%: ส่งไปตรวจสอบด้วยตนเอง
แนวทางแบบแบ่งระดับให้คำตอบที่ชัดเจนแก่หน่วยงานกำกับดูแลเกี่ยวกับวิธีที่คุณประเมินความน่าเชื่อถือ เครื่องมืออัตโนมัติส่วนใหญ่จัดการไฟล์ที่มีความเชื่อมั่นสูง คิวด้วยตนเองจัดการไฟล์ที่เหลือ ปริมาณงานสูงยังคงอยู่ คุณภาพการปฏิบัติตามกฎระเบียบก็ยังคงสูงเช่นกัน
คำถามที่พบบ่อย ของเราครอบคลุมคำถามทั่วไปเกี่ยวกับการประมวลผลด้วย OCR และข้อกำหนดรายงานการตรวจสอบ