อัปเดตสำหรับปี 2026

การตรวจสอบ GDPR มักพบความเสี่ยงที่ซ่อนอยู่ซึ่งเกิดขึ้นซ้ำๆ: คลังเก็บ PDF รูปภาพเก่าที่ยังไม่ได้รับการจัดการ

สำนักงานกฎหมายเก็บรักษาไฟล์ลูกค้าที่สแกนมาตลอด 20 ปี โรงพยาบาลเก็บแบบฟอร์มผู้ป่วยนับสิบปี หน่วยงานราชการจัดเก็บบันทึกที่สแกน ธนาคารมีไฟล์สินเชื่อที่แปลงเป็นรูปภาพ

คลังข้อมูลเหล่านี้มีลักษณะร่วมกันประการหนึ่ง: ไฟล์เป็นรูปภาพแบบ raster ได้แก่ PDF สแกน, TIFF หรือ JPEG ไม่มีชั้นข้อความ เครื่องมือตรวจหาข้อมูลส่วนบุคคลทั่วไปไม่สามารถอ่านได้ สำหรับเครื่องมือไม่แสดงที่มาส่วนใหญ่ ไฟล์เหล่านี้เสมือนไม่มีอยู่จริง

ความเชื่อที่พบบ่อย: "ไฟล์เหล่านี้เป็นไฟล์รูปภาพ — GDPR ไม่บังคับใช้"

มาตรา 17(1) ของ GDPR ให้สิทธิ์ผู้คนในการขอลบข้อมูล Recital 26 ระบุว่าการทำให้ข้อมูลไม่ระบุตัวตนจะนำข้อมูลส่วนบุคคลออกนอกขอบเขต ไม่มีข้อใดที่ยกเว้นรูปแบบไฟล์รูปภาพ สำนักงานกฎหมายที่ไม่สามารถตอบสนองคำขอลบข้อมูลสำหรับไฟล์ลูกค้าอายุ 15 ปีมีช่องโหว่ด้านการปฏิบัติตามกฎระเบียบ ไม่ใช่การยกเว้น

ดู ภาพรวมการปฏิบัติตามกฎระเบียบ และ แนวปฏิบัติด้านความปลอดภัย ของเราสำหรับวิธีที่เราสนับสนุน GDPR

กระบวนการตรวจหาข้อมูลทำงานอย่างไร

กระบวนการทำงานใน 3 ขั้นตอน

ขั้นตอนที่ 1 — OCR

เครื่องมือ OCR อ่านรูปภาพและดึงข้อความออกมา บันทึกตำแหน่งของแต่ละคำ ผลลัพธ์เป็นข้อความที่เครื่องอ่านได้พร้อมพิกัด ความแม่นยำลดลงเมื่อมีลายมือ หมึกจาง หรือแบบอักษรเก่า

ขั้นตอนที่ 2 — การตรวจหาเอนทิตีด้วย NLP

การรู้จำเอนทิตีที่มีชื่อ (NER) สแกนข้อความ OCR ค้นหาชื่อบุคคล องค์กร และสถานที่ การจับคู่รูปแบบเพิ่มหมายเลข SSN หมายเลขโทรศัพท์ และหมายเลขบัญชี แต่ละรายการที่พบจะได้รับคะแนนความเชื่อมั่น

ขั้นตอนที่ 3 — การทำให้ไม่ระบุตัวตน

เอนทิตีที่ตรวจพบจะถูกแทนที่ในผลลัพธ์ข้อความ รูปภาพต้นฉบับไม่เปลี่ยนแปลง การเปลี่ยนแปลงรูปภาพต้องใช้เครื่องมือแก้ไขแยกต่างหาก ข้อความที่ไม่ระบุตัวตนรองรับคำขอลบข้อมูล การตอบกลับ DSAR และบันทึกการปฏิบัติตามกฎระเบียบ

เครื่องมือ OCR สมัยใหม่มีความแม่นยำระดับอักขระ 98–99% สำหรับหน้าที่พิมพ์สะอาด ลายมือหรือการสแกนที่เสื่อมสภาพลดลงเหลือ 85–92% ความแม่นยำระดับเอนทิตีมักสูงกว่าระดับอักขระ ชื่อยังคงระบุได้แม้จะมีตัวอักษรผิดบางตัว

สาระสำคัญในทางปฏิบัติ: ความแม่นยำของ OCR ส่งผลต่อจำนวนเอนทิตีที่คุณตรวจพบ ไม่ได้กำหนดว่าวิธีการจะได้ผลหรือไม่ แม้ที่ความแม่นยำ 90% คุณยังพบชื่อและตัวเลขส่วนใหญ่ ยังคงต้องการระดับคุณภาพที่แตกต่างกัน แต่วิธีการนั้นสมเหตุสมผล

การประมวลผลคลังข้อมูลขนาดใหญ่

คลังข้อมูลเก่าขนาดใหญ่ใช้ขั้นตอนการทำงาน 4 ระยะ

ระยะที่ 1 — สินค้าคงคลัง: ระบุคลังข้อมูลที่ใช้รูปภาพทั้งหมด บันทึกระบบต้นทางและช่วงวันที่ ให้ความสำคัญกับบันทึกที่มีความเสี่ยงการลบข้อมูลสูงก่อน ไฟล์ที่เผชิญลูกค้ามาก่อนไฟล์ภายใน

ระยะที่ 2 — การประมวลผลแบบแบตช์: รัน OCR และการตรวจหาข้อมูลส่วนบุคคลเป็นแบตช์ ห้าถึงหมื่นไฟล์ต่อแบตช์เป็นขนาดที่พบบ่อย การประมวลผลทำงานข้ามคืน ผลลัพธ์คือรายงานข้อมูลส่วนบุคคลและข้อความที่ไม่ระบุตัวตนสำหรับแต่ละไฟล์

ระยะที่ 3 — การตอบสนองคำขอลบข้อมูล: เจ้าของข้อมูลส่งคำขอพร้อมชื่อและช่วงเวลา ค้นหาโทเค็นในข้อความที่ไม่ระบุตัวตน ค้นหาไฟล์ แก้ไข บันทึกการดำเนินการ

ระยะที่ 4 — การปฏิบัติตามกฎระเบียบต่อเนื่อง: นำไฟล์สแกนใหม่ผ่านกระบวนการเดิมก่อนจัดเก็บ เก็บรายงานข้อมูลส่วนบุคคลเป็นหลักฐาน Article 30 Records of Processing Activities

กรณีศึกษา: คลังข้อมูลสำนักงานกฎหมาย

การตรวจสอบสำนักงานกฎหมายพบสัญญาลูกค้า PDF รูปภาพ 80,000 ฉบับที่สแกนตั้งแต่ปี 1998 ถึง 2010 เครื่องมือตรวจหาข้อมูลส่วนบุคคลทั่วไปแสดงผลตรวจพบเป็นศูนย์ รูปแบบรูปภาพไม่ปรากฏ

อดีตลูกค้า 15 รายส่งคำขอลบข้อมูลในช่วง 12 เดือนก่อนหน้า สำนักงานตอบว่า: "เราไม่สามารถยืนยันได้ว่าบันทึกของคุณถูกลบแล้ว" คำตอบนั้นไม่เป็นไปตาม GDPR มาตรา 17

สิ่งที่สำนักงานดำเนินการ:

รัน OCR และการตรวจหาข้อมูลส่วนบุคคลบนไฟล์ทั้ง 80,000 ไฟล์เป็นแบตช์ละ 5,000
การประมวลผลใช้เวลาประมาณสามสัปดาห์
ผลลัพธ์: ข้อความที่ไม่ระบุตัวตน 80,000 รายการพร้อมรายงานต่อไฟล์
สร้างดัชนีที่ค้นหาได้เชื่อมโยงเอนทิตีกับ ID ไฟล์

หลังการประมวลผล:

การค้นหาไฟล์สำหรับหนึ่งเจ้าของข้อมูล: เฉลี่ย 4 นาที
ไฟล์ต่อคำขอ: เฉลี่ย 6–8 ไฟล์
เวลาแก้ไขต่อคำขอ: 20–30 นาที

คำขอค้างทั้ง 15 รายการได้รับการแก้ไขภายใน 30 วัน

ประเด็นสำคัญ: ภาระหน้าที่การปฏิบัติตามกฎระเบียบมีอยู่ก่อนการประมวลผล สำนักงานเพียงขาดเครื่องมือที่จะทำตามภาระนั้น การประมวลผลด้วย OCR ไม่ได้สร้างหน้าที่ใหม่ แต่ทำให้หน้าที่ที่มีอยู่สามารถปฏิบัติได้

ข้อจำกัดของ OCR และระดับคุณภาพ

ลายมือ มีความแม่นยำ OCR ต่ำกว่า กำหนดเกณฑ์ความเชื่อมั่นที่ต่ำกว่าก่อนประมวลผลเนื้อหาลายมือ

คุณภาพการสแกนต่ำ ลดคะแนน การปรับคอนทราสต์และการแก้ไขความเอียงช่วยก่อนรัน OCR

เลย์เอาต์ที่ผิดปกติ — หน้าหลายคอลัมน์ แบบอักษรกฎหมายเก่า — อาจได้คะแนนต่ำเช่นกัน

กำหนดระดับคุณภาพสำหรับงานการปฏิบัติตามกฎระเบียบ:

ความแม่นยำหน้าสูงกว่า 95%: รันการประมวลผลอัตโนมัติ
80–95%: รันการประมวลผลอัตโนมัติ จากนั้นการตรวจสอบโดยมนุษย์สำหรับเอนทิตีที่ถูกระบุ
ต่ำกว่า 80%: ส่งไปตรวจสอบด้วยตนเอง

แนวทางแบบแบ่งระดับให้คำตอบที่ชัดเจนแก่หน่วยงานกำกับดูแลเกี่ยวกับวิธีที่คุณประเมินความน่าเชื่อถือ เครื่องมืออัตโนมัติส่วนใหญ่จัดการไฟล์ที่มีความเชื่อมั่นสูง คิวด้วยตนเองจัดการไฟล์ที่เหลือ ปริมาณงานสูงยังคงอยู่ คุณภาพการปฏิบัติตามกฎระเบียบก็ยังคงสูงเช่นกัน

คำถามที่พบบ่อย ของเราครอบคลุมคำถามทั่วไปเกี่ยวกับการประมวลผลด้วย OCR และข้อกำหนดรายงานการตรวจสอบ

แหล่งอ้างอิง

บทความที่เกี่ยวข้อง

GDPR & การปฏิบัติตาม

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.

เริ่มทดลองใช้ฟรี ดูฟีเจอร์

เอกสารสแกนเก่าภายใต้ GDPR: OCR + ข้อมูลส่วนบุคคล

กระบวนการตรวจหาข้อมูลทำงานอย่างไร

การประมวลผลคลังข้อมูลขนาดใหญ่

กรณีศึกษา: คลังข้อมูลสำนักงานกฎหมาย

ข้อจำกัดของ OCR และระดับคุณภาพ

แหล่งอ้างอิง

บทความที่เกี่ยวข้อง

เครื่องมือ PII แบบ Self-Hosted ล้มเหลวในการตรวจสอบ Compliance

Presidio พลาด Entity GDPR กว่า 220 รายการ

Configuration Drift: ความเสี่ยง GDPR ที่ซ่อนอยู่

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เอกสารสแกนเก่าภายใต้ GDPR: OCR + ข้อมูลส่วนบุคคล

GDPR และไฟล์สแกนเก่า: การใช้ OCR สำหรับข้อมูลส่วนบุคคล

กระบวนการตรวจหาข้อมูลทำงานอย่างไร

การประมวลผลคลังข้อมูลขนาดใหญ่

กรณีศึกษา: คลังข้อมูลสำนักงานกฎหมาย

ข้อจำกัดของ OCR และระดับคุณภาพ

แหล่งอ้างอิง

บทความที่เกี่ยวข้อง

เครื่องมือ PII แบบ Self-Hosted ล้มเหลวในการตรวจสอบ Compliance

Presidio พลาด Entity GDPR กว่า 220 รายการ

Configuration Drift: ความเสี่ยง GDPR ที่ซ่อนอยู่

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow