Vấn Đề Kho Lưu Trữ Di Sản Mà Không Ai Nói Đến

Các tổ chức tiến hành kiểm tra tuân thủ GDPR thường xuyên phát hiện cùng một loại rủi ro ẩn: kho lưu trữ PDF dạng hình ảnh từ trước khi các chương trình số hóa được triển khai.

Các công ty luật với 20 năm hồ sơ khách hàng đã quét. Các nhà cung cấp dịch vụ chăm sóc sức khỏe với nhiều thập kỷ biểu mẫu tiếp nhận bệnh nhân đã quét. Cơ quan chính phủ với hồ sơ lịch sử đã quét. Ngân hàng với hình ảnh đơn vay và tài liệu tài khoản.

Các kho lưu trữ này có đặc điểm chung: tài liệu được lưu trữ dưới dạng hình ảnh quét (PDF raster, TIFF hoặc JPEG), không phải là tài liệu kỹ thuật số dạng văn bản. Không có lớp văn bản để tìm kiếm, không có nội dung máy đọc được cho các công cụ PII tiêu chuẩn phân tích. Đối với một công cụ ẩn danh hóa thông thường, những tài liệu này là vô hình.

Hiểu lầm phổ biến: "Đây chỉ là các tệp hình ảnh — GDPR không thực sự áp dụng."

Văn bản GDPR rất rõ ràng. Điều 17(1) trao cho chủ thể dữ liệu quyền xóa dữ liệu cá nhân. Recital 26 xác nhận rằng ẩn danh hóa dữ liệu cá nhân là tiêu chuẩn cho dữ liệu không còn liên quan đến một cá nhân có thể nhận dạng. Không có điều khoản nào bao gồm miễn trừ cho các định dạng hình ảnh có nguồn gốc từ giấy.

Một công ty luật không thể đáp ứng yêu cầu xóa dữ liệu từ một khách hàng đã được phục vụ 15 năm trước — vì hồ sơ khách hàng 15 tuổi chỉ tồn tại dưới dạng PDF hình ảnh đã quét — có khoảng cách tuân thủ GDPR, không phải là miễn trừ.

Cách Phát Hiện PII Trong Tài Liệu Dạng Hình Ảnh Hoạt Động

Quy trình kỹ thuật để phát hiện PII trong tài liệu dạng hình ảnh tích hợp hai giai đoạn:

Giai đoạn 1: Nhận Dạng Ký Tự Quang Học (OCR)

Đầu vào: PDF đã quét hoặc tệp hình ảnh
Động cơ OCR trích xuất văn bản từ hình ảnh đã quét
Đầu ra: văn bản có thể đọc bằng máy với tọa độ vị trí
Thách thức: chữ viết tay, chất lượng quét kém, mực mờ và phông chữ cũ làm giảm độ chính xác OCR

Giai đoạn 2: Phát Hiện PII bằng NLP

Đầu vào: văn bản được trích xuất bằng OCR
Nhận Dạng Thực Thể Được Đặt Tên (NER) xác định tên người, tổ chức, địa điểm
Khớp mẫu xác định SSN, số điện thoại, địa chỉ email, số tài khoản
Đầu ra: các thực thể PII được phát hiện với điểm tin cậy và tham chiếu vị trí

Giai đoạn 3: Ẩn Danh Hóa

Các thực thể được phát hiện được ẩn danh hóa trong đầu ra văn bản được trích xuất
Đối với PDF hình ảnh: đầu ra là tài liệu văn bản được ẩn danh hóa (hình ảnh gốc không bị sửa đổi — chỉnh sửa hình ảnh sẽ yêu cầu công cụ biên tập PDF)
Văn bản được ẩn danh hóa cho phép phản hồi DSAR, thực hiện yêu cầu xóa và tài liệu tuân thủ

Chất lượng OCR là ràng buộc kỹ thuật chính. Đối với các tài liệu in ấn chất lượng tốt, các động cơ OCR hiện đại đạt độ chính xác ký tự 98-99%. Đối với chữ viết tay hoặc bản quét bị xuống cấp, độ chính xác có thể là 85-92%. Để phát hiện PII, độ chính xác ở cấp thực thể (nhận dạng chính xác rằng tên xuất hiện trong tài liệu, ngay cả khi các ký tự riêng lẻ có lỗi nhỏ) thường cao hơn độ chính xác ở cấp ký tự.

Xử Lý Thực Tế Cho Kho Lưu Trữ Lớn

Đối với các tổ chức có kho lưu trữ di sản lớn, quy trình vận hành:

Giai đoạn kiểm kê:

Lập danh mục tất cả kho lưu trữ PDF dạng hình ảnh theo hệ thống nguồn và phạm vi ngày
Ước tính khối lượng và ưu tiên theo rủi ro xóa dữ liệu (hồ sơ hướng đến khách hàng trước)

Xử lý hàng loạt:

Xử lý kho lưu trữ theo lô (5.000-10.000 tệp mỗi lô là điển hình)
OCR + phát hiện PII chạy không đồng bộ
Đầu ra: báo cáo phát hiện PII theo từng tệp và trích xuất văn bản được ẩn danh hóa

Thực hiện yêu cầu xóa dữ liệu:

Chủ thể dữ liệu gửi yêu cầu xóa với tên và khoảng thời gian liên quan
Tìm kiếm văn bản được ẩn danh hóa cho các mã thông báo giả danh được liên kết với chủ thể dữ liệu
Xác định các tài liệu cụ thể chứa hồ sơ của chủ thể dữ liệu
Xử lý các tài liệu cụ thể đó để biên tập (sửa đổi PDF hình ảnh gốc)
Tài liệu hành động xóa

Tuân thủ liên tục:

Tài liệu mới đã quét được xử lý qua cùng một quy trình trước khi lưu trữ
Báo cáo phát hiện PII được lưu giữ làm bằng chứng Hồ Sơ Hoạt Động Xử Lý Điều 30 GDPR

Trường Hợp Sử Dụng: Kho Lưu Trữ 20 Năm Của Công Ty Luật

Một công ty luật tiến hành kiểm tra GDPR phát hiện 80.000 hợp đồng khách hàng PDF dạng hình ảnh được quét từ năm 1998 đến 2010. Các công cụ PII tiêu chuẩn trả về không phát hiện — định dạng dạng hình ảnh là vô hình.

Vấn đề tuân thủ rất cụ thể: 15 khách hàng cũ đã gửi yêu cầu xóa trong 12 tháng trước. Phản hồi của công ty: "Chúng tôi không thể xác nhận dữ liệu của bạn đã bị xóa vì hồ sơ lịch sử của chúng tôi ở định dạng hình ảnh mà chúng tôi không thể xử lý." Đây không phải là phản hồi tuân thủ theo Điều 17 GDPR.

Phương pháp xử lý:

OCR + phát hiện PII trên tất cả 80.000 tài liệu theo lô 5.000
Thời gian xử lý: khoảng 3 tuần xử lý hàng loạt
Kết quả: 80.000 trích xuất văn bản được ẩn danh hóa với báo cáo phát hiện PII theo từng tệp
Chỉ mục có thể tìm kiếm của các thực thể được phát hiện liên kết với ID tài liệu

Thực hiện yêu cầu xóa sau khi xử lý:

Thời gian trung bình để xác định tài liệu cho một chủ thể dữ liệu cụ thể: 4 phút (tìm kiếm trên trích xuất văn bản được ẩn danh hóa)
Số lượng tài liệu mỗi yêu cầu xóa: trung bình 6-8 tài liệu
Biên tập các tài liệu được xác định: 20-30 phút mỗi yêu cầu

Nghĩa vụ tuân thủ trước đây không thể thực hiện: đã được đáp ứng. 15 yêu cầu xóa tồn đọng được giải quyết trong vòng 30 ngày sau khi hoàn thành xử lý kho lưu trữ.

Giới Hạn OCR và Quản Lý Chất Lượng

Đánh giá trung thực về phát hiện PII dựa trên OCR cho tài liệu di sản đòi hỏi phải thừa nhận các giới hạn:

Độ chính xác chữ viết tay: Các tài liệu viết tay (tuyên bố cá nhân, biểu mẫu đơn điền bằng tay) có độ chính xác OCR thấp hơn so với tài liệu in. Phát hiện PII trên nội dung viết tay yêu cầu điều chỉnh ngưỡng tin cậy.

Chất lượng quét bị xuống cấp: Tài liệu được quét ở độ phân giải thấp hoặc với độ phơi sáng kém có độ chính xác OCR giảm. Tiền xử lý (tăng cường độ tương phản, làm thẳng) có thể cải thiện kết quả.

Phông chữ và định dạng bất thường: Phông chữ trước kỹ thuật số, định dạng tài liệu pháp lý với bố cục bất thường và tài liệu nhiều cột có thể có độ chính xác OCR thấp hơn.

Cài đặt ngưỡng chất lượng: Để tài liệu tuân thủ, việc phân loại tài liệu theo độ tin cậy OCR là phù hợp: độ tin cậy cao (>95% độ chính xác trang) phù hợp cho xử lý tự động; độ tin cậy trung bình (80-95%) phù hợp cho xử lý tự động với xem xét của con người đối với các thực thể được đánh dấu; độ tin cậy thấp (<80%) yêu cầu xem xét thủ công.

Đối với các tổ chức có kho lưu trữ lớn của các tài liệu lịch sử bị xuống cấp, phương pháp kết hợp — xử lý tự động cho các tài liệu có độ tin cậy cao, hàng đợi xem xét thủ công cho các tài liệu có độ tin cậy thấp — cung cấp thông lượng thực tế trong khi duy trì chất lượng tuân thủ.

Nguồn:

Các Bài viết Liên quan

GDPR & Tuân Thủ

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

Bắt đầu Dùng Thử Miễn Phí Xem Tính Năng

GDPR và Tài Liệu Quét Di Sản: OCR + PII

Vấn Đề Kho Lưu Trữ Di Sản Mà Không Ai Nói Đến

Cách Phát Hiện PII Trong Tài Liệu Dạng Hình Ảnh Hoạt Động

Xử Lý Thực Tế Cho Kho Lưu Trữ Lớn

Trường Hợp Sử Dụng: Kho Lưu Trữ 20 Năm Của Công Ty Luật

Giới Hạn OCR và Quản Lý Chất Lượng

Các Bài viết Liên quan

Công Cụ PII Tự Host Thất Bại Trong Kiểm Toán Tuân Thủ

Presidio Bỏ Sót 220+ Thực Thể GDPR

Độ Lệch Cấu Hình: Rủi Ro GDPR Ẩn

Sẵn sàng bảo vệ dữ liệu của bạn?

GDPR và Tài Liệu Quét Di Sản: OCR + PII

Vấn Đề Kho Lưu Trữ Di Sản Mà Không Ai Nói Đến

Cách Phát Hiện PII Trong Tài Liệu Dạng Hình Ảnh Hoạt Động

Xử Lý Thực Tế Cho Kho Lưu Trữ Lớn

Trường Hợp Sử Dụng: Kho Lưu Trữ 20 Năm Của Công Ty Luật

Giới Hạn OCR và Quản Lý Chất Lượng

Các Bài viết Liên quan

Công Cụ PII Tự Host Thất Bại Trong Kiểm Toán Tuân Thủ

Presidio Bỏ Sót 220+ Thực Thể GDPR

Độ Lệch Cấu Hình: Rủi Ro GDPR Ẩn

Sẵn sàng bảo vệ dữ liệu của bạn?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow