By · Last updated 2026-06-05

Quay lại BlogGDPR & Tuân Thủ

GDPR và Tài Liệu Quét Di Sản: OCR + PII

Quyền xóa dữ liệu theo GDPR áp dụng cho dữ liệu cá nhân 'bất kể định dạng.' PDF dạng hình ảnh từ kho lưu trữ giấy không được miễn trừ.

June 5, 20267 phút đọc
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Vấn Đề Kho Lưu Trữ Di Sản Mà Không Ai Nói Đến

Các tổ chức tiến hành kiểm tra tuân thủ GDPR thường xuyên phát hiện cùng một loại rủi ro ẩn: kho lưu trữ PDF dạng hình ảnh từ trước khi các chương trình số hóa được triển khai.

Các công ty luật với 20 năm hồ sơ khách hàng đã quét. Các nhà cung cấp dịch vụ chăm sóc sức khỏe với nhiều thập kỷ biểu mẫu tiếp nhận bệnh nhân đã quét. Cơ quan chính phủ với hồ sơ lịch sử đã quét. Ngân hàng với hình ảnh đơn vay và tài liệu tài khoản.

Các kho lưu trữ này có đặc điểm chung: tài liệu được lưu trữ dưới dạng hình ảnh quét (PDF raster, TIFF hoặc JPEG), không phải là tài liệu kỹ thuật số dạng văn bản. Không có lớp văn bản để tìm kiếm, không có nội dung máy đọc được cho các công cụ PII tiêu chuẩn phân tích. Đối với một công cụ ẩn danh hóa thông thường, những tài liệu này là vô hình.

Hiểu lầm phổ biến: "Đây chỉ là các tệp hình ảnh — GDPR không thực sự áp dụng."

Văn bản GDPR rất rõ ràng. Điều 17(1) trao cho chủ thể dữ liệu quyền xóa dữ liệu cá nhân. Recital 26 xác nhận rằng ẩn danh hóa dữ liệu cá nhân là tiêu chuẩn cho dữ liệu không còn liên quan đến một cá nhân có thể nhận dạng. Không có điều khoản nào bao gồm miễn trừ cho các định dạng hình ảnh có nguồn gốc từ giấy.

Một công ty luật không thể đáp ứng yêu cầu xóa dữ liệu từ một khách hàng đã được phục vụ 15 năm trước — vì hồ sơ khách hàng 15 tuổi chỉ tồn tại dưới dạng PDF hình ảnh đã quét — có khoảng cách tuân thủ GDPR, không phải là miễn trừ.

Cách Phát Hiện PII Trong Tài Liệu Dạng Hình Ảnh Hoạt Động

Quy trình kỹ thuật để phát hiện PII trong tài liệu dạng hình ảnh tích hợp hai giai đoạn:

Giai đoạn 1: Nhận Dạng Ký Tự Quang Học (OCR)

  • Đầu vào: PDF đã quét hoặc tệp hình ảnh
  • Động cơ OCR trích xuất văn bản từ hình ảnh đã quét
  • Đầu ra: văn bản có thể đọc bằng máy với tọa độ vị trí
  • Thách thức: chữ viết tay, chất lượng quét kém, mực mờ và phông chữ cũ làm giảm độ chính xác OCR

Giai đoạn 2: Phát Hiện PII bằng NLP

  • Đầu vào: văn bản được trích xuất bằng OCR
  • Nhận Dạng Thực Thể Được Đặt Tên (NER) xác định tên người, tổ chức, địa điểm
  • Khớp mẫu xác định SSN, số điện thoại, địa chỉ email, số tài khoản
  • Đầu ra: các thực thể PII được phát hiện với điểm tin cậy và tham chiếu vị trí

Giai đoạn 3: Ẩn Danh Hóa

  • Các thực thể được phát hiện được ẩn danh hóa trong đầu ra văn bản được trích xuất
  • Đối với PDF hình ảnh: đầu ra là tài liệu văn bản được ẩn danh hóa (hình ảnh gốc không bị sửa đổi — chỉnh sửa hình ảnh sẽ yêu cầu công cụ biên tập PDF)
  • Văn bản được ẩn danh hóa cho phép phản hồi DSAR, thực hiện yêu cầu xóa và tài liệu tuân thủ

Chất lượng OCR là ràng buộc kỹ thuật chính. Đối với các tài liệu in ấn chất lượng tốt, các động cơ OCR hiện đại đạt độ chính xác ký tự 98-99%. Đối với chữ viết tay hoặc bản quét bị xuống cấp, độ chính xác có thể là 85-92%. Để phát hiện PII, độ chính xác ở cấp thực thể (nhận dạng chính xác rằng tên xuất hiện trong tài liệu, ngay cả khi các ký tự riêng lẻ có lỗi nhỏ) thường cao hơn độ chính xác ở cấp ký tự.

Xử Lý Thực Tế Cho Kho Lưu Trữ Lớn

Đối với các tổ chức có kho lưu trữ di sản lớn, quy trình vận hành:

Giai đoạn kiểm kê:

  • Lập danh mục tất cả kho lưu trữ PDF dạng hình ảnh theo hệ thống nguồn và phạm vi ngày
  • Ước tính khối lượng và ưu tiên theo rủi ro xóa dữ liệu (hồ sơ hướng đến khách hàng trước)

Xử lý hàng loạt:

  • Xử lý kho lưu trữ theo lô (5.000-10.000 tệp mỗi lô là điển hình)
  • OCR + phát hiện PII chạy không đồng bộ
  • Đầu ra: báo cáo phát hiện PII theo từng tệp và trích xuất văn bản được ẩn danh hóa

Thực hiện yêu cầu xóa dữ liệu:

  • Chủ thể dữ liệu gửi yêu cầu xóa với tên và khoảng thời gian liên quan
  • Tìm kiếm văn bản được ẩn danh hóa cho các mã thông báo giả danh được liên kết với chủ thể dữ liệu
  • Xác định các tài liệu cụ thể chứa hồ sơ của chủ thể dữ liệu
  • Xử lý các tài liệu cụ thể đó để biên tập (sửa đổi PDF hình ảnh gốc)
  • Tài liệu hành động xóa

Tuân thủ liên tục:

  • Tài liệu mới đã quét được xử lý qua cùng một quy trình trước khi lưu trữ
  • Báo cáo phát hiện PII được lưu giữ làm bằng chứng Hồ Sơ Hoạt Động Xử Lý Điều 30 GDPR

Trường Hợp Sử Dụng: Kho Lưu Trữ 20 Năm Của Công Ty Luật

Một công ty luật tiến hành kiểm tra GDPR phát hiện 80.000 hợp đồng khách hàng PDF dạng hình ảnh được quét từ năm 1998 đến 2010. Các công cụ PII tiêu chuẩn trả về không phát hiện — định dạng dạng hình ảnh là vô hình.

Vấn đề tuân thủ rất cụ thể: 15 khách hàng cũ đã gửi yêu cầu xóa trong 12 tháng trước. Phản hồi của công ty: "Chúng tôi không thể xác nhận dữ liệu của bạn đã bị xóa vì hồ sơ lịch sử của chúng tôi ở định dạng hình ảnh mà chúng tôi không thể xử lý." Đây không phải là phản hồi tuân thủ theo Điều 17 GDPR.

Phương pháp xử lý:

  • OCR + phát hiện PII trên tất cả 80.000 tài liệu theo lô 5.000
  • Thời gian xử lý: khoảng 3 tuần xử lý hàng loạt
  • Kết quả: 80.000 trích xuất văn bản được ẩn danh hóa với báo cáo phát hiện PII theo từng tệp
  • Chỉ mục có thể tìm kiếm của các thực thể được phát hiện liên kết với ID tài liệu

Thực hiện yêu cầu xóa sau khi xử lý:

  • Thời gian trung bình để xác định tài liệu cho một chủ thể dữ liệu cụ thể: 4 phút (tìm kiếm trên trích xuất văn bản được ẩn danh hóa)
  • Số lượng tài liệu mỗi yêu cầu xóa: trung bình 6-8 tài liệu
  • Biên tập các tài liệu được xác định: 20-30 phút mỗi yêu cầu

Nghĩa vụ tuân thủ trước đây không thể thực hiện: đã được đáp ứng. 15 yêu cầu xóa tồn đọng được giải quyết trong vòng 30 ngày sau khi hoàn thành xử lý kho lưu trữ.

Giới Hạn OCR và Quản Lý Chất Lượng

Đánh giá trung thực về phát hiện PII dựa trên OCR cho tài liệu di sản đòi hỏi phải thừa nhận các giới hạn:

Độ chính xác chữ viết tay: Các tài liệu viết tay (tuyên bố cá nhân, biểu mẫu đơn điền bằng tay) có độ chính xác OCR thấp hơn so với tài liệu in. Phát hiện PII trên nội dung viết tay yêu cầu điều chỉnh ngưỡng tin cậy.

Chất lượng quét bị xuống cấp: Tài liệu được quét ở độ phân giải thấp hoặc với độ phơi sáng kém có độ chính xác OCR giảm. Tiền xử lý (tăng cường độ tương phản, làm thẳng) có thể cải thiện kết quả.

Phông chữ và định dạng bất thường: Phông chữ trước kỹ thuật số, định dạng tài liệu pháp lý với bố cục bất thường và tài liệu nhiều cột có thể có độ chính xác OCR thấp hơn.

Cài đặt ngưỡng chất lượng: Để tài liệu tuân thủ, việc phân loại tài liệu theo độ tin cậy OCR là phù hợp: độ tin cậy cao (>95% độ chính xác trang) phù hợp cho xử lý tự động; độ tin cậy trung bình (80-95%) phù hợp cho xử lý tự động với xem xét của con người đối với các thực thể được đánh dấu; độ tin cậy thấp (<80%) yêu cầu xem xét thủ công.

Đối với các tổ chức có kho lưu trữ lớn của các tài liệu lịch sử bị xuống cấp, phương pháp kết hợp — xử lý tự động cho các tài liệu có độ tin cậy cao, hàng đợi xem xét thủ công cho các tài liệu có độ tin cậy thấp — cung cấp thông lượng thực tế trong khi duy trì chất lượng tuân thủ.

Nguồn:

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.