anonym.legal

By · Last updated 2026-06-05

กลับไปที่บล็อกGDPR & การปฏิบัติตาม

เอกสารสแกนเก่าภายใต้ GDPR: OCR + ข้อมูลส่วนบุคคล

สิทธิ์การลบข้อมูลตาม GDPR ครอบคลุมข้อมูลส่วนบุคคล 'ไม่ว่าจะอยู่ในรูปแบบใดก็ตาม' ไฟล์ PDF รูปภาพจากแฟ้มเอกสารกระดาษไม่ได้รับการยกเว้น

June 5, 20267 อ่านประมาณ
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

GDPR และไฟล์สแกนเก่า: การใช้ OCR สำหรับข้อมูลส่วนบุคคล

อัปเดตสำหรับปี 2026

การตรวจสอบ GDPR มักพบความเสี่ยงที่ซ่อนอยู่ซึ่งเกิดขึ้นซ้ำๆ: คลังเก็บ PDF รูปภาพเก่าที่ยังไม่ได้รับการจัดการ

สำนักงานกฎหมายเก็บรักษาไฟล์ลูกค้าที่สแกนมาตลอด 20 ปี โรงพยาบาลเก็บแบบฟอร์มผู้ป่วยนับสิบปี หน่วยงานราชการจัดเก็บบันทึกที่สแกน ธนาคารมีไฟล์สินเชื่อที่แปลงเป็นรูปภาพ

คลังข้อมูลเหล่านี้มีลักษณะร่วมกันประการหนึ่ง: ไฟล์เป็นรูปภาพแบบ raster ได้แก่ PDF สแกน, TIFF หรือ JPEG ไม่มีชั้นข้อความ เครื่องมือตรวจหาข้อมูลส่วนบุคคลทั่วไปไม่สามารถอ่านได้ สำหรับเครื่องมือไม่แสดงที่มาส่วนใหญ่ ไฟล์เหล่านี้เสมือนไม่มีอยู่จริง

ความเชื่อที่พบบ่อย: "ไฟล์เหล่านี้เป็นไฟล์รูปภาพ — GDPR ไม่บังคับใช้"

มาตรา 17(1) ของ GDPR ให้สิทธิ์ผู้คนในการขอลบข้อมูล Recital 26 ระบุว่าการทำให้ข้อมูลไม่ระบุตัวตนจะนำข้อมูลส่วนบุคคลออกนอกขอบเขต ไม่มีข้อใดที่ยกเว้นรูปแบบไฟล์รูปภาพ สำนักงานกฎหมายที่ไม่สามารถตอบสนองคำขอลบข้อมูลสำหรับไฟล์ลูกค้าอายุ 15 ปีมีช่องโหว่ด้านการปฏิบัติตามกฎระเบียบ ไม่ใช่การยกเว้น

ดู ภาพรวมการปฏิบัติตามกฎระเบียบ และ แนวปฏิบัติด้านความปลอดภัย ของเราสำหรับวิธีที่เราสนับสนุน GDPR

กระบวนการตรวจหาข้อมูลทำงานอย่างไร

กระบวนการทำงานใน 3 ขั้นตอน

ขั้นตอนที่ 1 — OCR

เครื่องมือ OCR อ่านรูปภาพและดึงข้อความออกมา บันทึกตำแหน่งของแต่ละคำ ผลลัพธ์เป็นข้อความที่เครื่องอ่านได้พร้อมพิกัด ความแม่นยำลดลงเมื่อมีลายมือ หมึกจาง หรือแบบอักษรเก่า

ขั้นตอนที่ 2 — การตรวจหาเอนทิตีด้วย NLP

การรู้จำเอนทิตีที่มีชื่อ (NER) สแกนข้อความ OCR ค้นหาชื่อบุคคล องค์กร และสถานที่ การจับคู่รูปแบบเพิ่มหมายเลข SSN หมายเลขโทรศัพท์ และหมายเลขบัญชี แต่ละรายการที่พบจะได้รับคะแนนความเชื่อมั่น

ขั้นตอนที่ 3 — การทำให้ไม่ระบุตัวตน

เอนทิตีที่ตรวจพบจะถูกแทนที่ในผลลัพธ์ข้อความ รูปภาพต้นฉบับไม่เปลี่ยนแปลง การเปลี่ยนแปลงรูปภาพต้องใช้เครื่องมือแก้ไขแยกต่างหาก ข้อความที่ไม่ระบุตัวตนรองรับคำขอลบข้อมูล การตอบกลับ DSAR และบันทึกการปฏิบัติตามกฎระเบียบ

เครื่องมือ OCR สมัยใหม่มีความแม่นยำระดับอักขระ 98–99% สำหรับหน้าที่พิมพ์สะอาด ลายมือหรือการสแกนที่เสื่อมสภาพลดลงเหลือ 85–92% ความแม่นยำระดับเอนทิตีมักสูงกว่าระดับอักขระ ชื่อยังคงระบุได้แม้จะมีตัวอักษรผิดบางตัว

สาระสำคัญในทางปฏิบัติ: ความแม่นยำของ OCR ส่งผลต่อจำนวนเอนทิตีที่คุณตรวจพบ ไม่ได้กำหนดว่าวิธีการจะได้ผลหรือไม่ แม้ที่ความแม่นยำ 90% คุณยังพบชื่อและตัวเลขส่วนใหญ่ ยังคงต้องการระดับคุณภาพที่แตกต่างกัน แต่วิธีการนั้นสมเหตุสมผล

การประมวลผลคลังข้อมูลขนาดใหญ่

คลังข้อมูลเก่าขนาดใหญ่ใช้ขั้นตอนการทำงาน 4 ระยะ

ระยะที่ 1 — สินค้าคงคลัง: ระบุคลังข้อมูลที่ใช้รูปภาพทั้งหมด บันทึกระบบต้นทางและช่วงวันที่ ให้ความสำคัญกับบันทึกที่มีความเสี่ยงการลบข้อมูลสูงก่อน ไฟล์ที่เผชิญลูกค้ามาก่อนไฟล์ภายใน

ระยะที่ 2 — การประมวลผลแบบแบตช์: รัน OCR และการตรวจหาข้อมูลส่วนบุคคลเป็นแบตช์ ห้าถึงหมื่นไฟล์ต่อแบตช์เป็นขนาดที่พบบ่อย การประมวลผลทำงานข้ามคืน ผลลัพธ์คือรายงานข้อมูลส่วนบุคคลและข้อความที่ไม่ระบุตัวตนสำหรับแต่ละไฟล์

ระยะที่ 3 — การตอบสนองคำขอลบข้อมูล: เจ้าของข้อมูลส่งคำขอพร้อมชื่อและช่วงเวลา ค้นหาโทเค็นในข้อความที่ไม่ระบุตัวตน ค้นหาไฟล์ แก้ไข บันทึกการดำเนินการ

ระยะที่ 4 — การปฏิบัติตามกฎระเบียบต่อเนื่อง: นำไฟล์สแกนใหม่ผ่านกระบวนการเดิมก่อนจัดเก็บ เก็บรายงานข้อมูลส่วนบุคคลเป็นหลักฐาน Article 30 Records of Processing Activities

กรณีศึกษา: คลังข้อมูลสำนักงานกฎหมาย

การตรวจสอบสำนักงานกฎหมายพบสัญญาลูกค้า PDF รูปภาพ 80,000 ฉบับที่สแกนตั้งแต่ปี 1998 ถึง 2010 เครื่องมือตรวจหาข้อมูลส่วนบุคคลทั่วไปแสดงผลตรวจพบเป็นศูนย์ รูปแบบรูปภาพไม่ปรากฏ

อดีตลูกค้า 15 รายส่งคำขอลบข้อมูลในช่วง 12 เดือนก่อนหน้า สำนักงานตอบว่า: "เราไม่สามารถยืนยันได้ว่าบันทึกของคุณถูกลบแล้ว" คำตอบนั้นไม่เป็นไปตาม GDPR มาตรา 17

สิ่งที่สำนักงานดำเนินการ:

  • รัน OCR และการตรวจหาข้อมูลส่วนบุคคลบนไฟล์ทั้ง 80,000 ไฟล์เป็นแบตช์ละ 5,000
  • การประมวลผลใช้เวลาประมาณสามสัปดาห์
  • ผลลัพธ์: ข้อความที่ไม่ระบุตัวตน 80,000 รายการพร้อมรายงานต่อไฟล์
  • สร้างดัชนีที่ค้นหาได้เชื่อมโยงเอนทิตีกับ ID ไฟล์

หลังการประมวลผล:

  • การค้นหาไฟล์สำหรับหนึ่งเจ้าของข้อมูล: เฉลี่ย 4 นาที
  • ไฟล์ต่อคำขอ: เฉลี่ย 6–8 ไฟล์
  • เวลาแก้ไขต่อคำขอ: 20–30 นาที

คำขอค้างทั้ง 15 รายการได้รับการแก้ไขภายใน 30 วัน

ประเด็นสำคัญ: ภาระหน้าที่การปฏิบัติตามกฎระเบียบมีอยู่ก่อนการประมวลผล สำนักงานเพียงขาดเครื่องมือที่จะทำตามภาระนั้น การประมวลผลด้วย OCR ไม่ได้สร้างหน้าที่ใหม่ แต่ทำให้หน้าที่ที่มีอยู่สามารถปฏิบัติได้

ข้อจำกัดของ OCR และระดับคุณภาพ

ลายมือ มีความแม่นยำ OCR ต่ำกว่า กำหนดเกณฑ์ความเชื่อมั่นที่ต่ำกว่าก่อนประมวลผลเนื้อหาลายมือ

คุณภาพการสแกนต่ำ ลดคะแนน การปรับคอนทราสต์และการแก้ไขความเอียงช่วยก่อนรัน OCR

เลย์เอาต์ที่ผิดปกติ — หน้าหลายคอลัมน์ แบบอักษรกฎหมายเก่า — อาจได้คะแนนต่ำเช่นกัน

กำหนดระดับคุณภาพสำหรับงานการปฏิบัติตามกฎระเบียบ:

  • ความแม่นยำหน้าสูงกว่า 95%: รันการประมวลผลอัตโนมัติ
  • 80–95%: รันการประมวลผลอัตโนมัติ จากนั้นการตรวจสอบโดยมนุษย์สำหรับเอนทิตีที่ถูกระบุ
  • ต่ำกว่า 80%: ส่งไปตรวจสอบด้วยตนเอง

แนวทางแบบแบ่งระดับให้คำตอบที่ชัดเจนแก่หน่วยงานกำกับดูแลเกี่ยวกับวิธีที่คุณประเมินความน่าเชื่อถือ เครื่องมืออัตโนมัติส่วนใหญ่จัดการไฟล์ที่มีความเชื่อมั่นสูง คิวด้วยตนเองจัดการไฟล์ที่เหลือ ปริมาณงานสูงยังคงอยู่ คุณภาพการปฏิบัติตามกฎระเบียบก็ยังคงสูงเช่นกัน

คำถามที่พบบ่อย ของเราครอบคลุมคำถามทั่วไปเกี่ยวกับการประมวลผลด้วย OCR และข้อกำหนดรายงานการตรวจสอบ

แหล่งอ้างอิง

พร้อมที่จะปกป้องข้อมูลของคุณหรือยัง?

เริ่มทำให้ PII เป็นนิรนามด้วยประเภทเอนทิตีมากกว่า 285 ประเภทใน 48 ภาษา.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.