Quay lại BlogGDPR & Tuân Thủ

GDPR và Lưu trữ Tài liệu Kế thừa: Cách Xử lý 80.000...

Quyền được xóa của GDPR áp dụng cho dữ liệu cá nhân 'bất kể định dạng'. Tệp PDF dựa trên hình ảnh từ các lưu trữ giấy không được miễn trừ.

April 21, 20267 phút đọc
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

Vấn đề Lưu trữ Kế thừa Mà Không ai Nói đến

Các tổ chức thực hiện kiểm toán tuân thủ GDPR thường phát hiện ra cùng một loại rủi ro ẩn: lưu trữ PDF dựa trên hình ảnh từ trước khi các chương trình số hóa được thực hiện.

Công ty luật có 20 năm tệp khách hàng được quét. Nhà cung cấp dịch vụ chăm sóc sức khỏe có hàng chục năm mẫu nhập viện bệnh nhân được quét. Các cơ quan chính phủ có hồ sơ lịch sử được quét. Các ngân hàng có các ứng dụng khoản vay và tài liệu tài khoản được chụp ảnh.

Các lưu trữ này có một đặc điểm chung: các tài liệu được lưu trữ dưới dạng hình ảnh được quét (PDF raster, TIFF hoặc JPEG), không phải là tài liệu kỹ thuật số dựa trên văn bản. Không có lớp văn bản để tìm kiếm, không có nội dung có thể đọc bằng máy để các công cụ PII tiêu chuẩn phân tích. Đối với một công cụ vô danh hóa thông thường, các tài liệu này không nhìn thấy được.

Sự hiểu lầm phổ biến: "Đây chỉ là các tệp hình ảnh - GDPR không thực sự áp dụng."

Văn bản GDPR rõ ràng. Điều 17(1) cấp cho chủ thể dữ liệu quyền xóa dữ liệu cá nhân. Recital 26 xác nhận rằng vô danh hóa dữ liệu cá nhân là tiêu chuẩn cho dữ liệu không còn liên quan đến một người tự nhiên có thể nhận dạng được. Cả hai quy định đều không bao gồm ngoại lệ cho các định dạng hình ảnh có nguồn gốc từ giấy.

Công ty luật không thể đáp ứng yêu cầu xóa của khách hàng đã từng phục vụ 15 năm trước - vì hồ sơ khách hàng 15 năm chỉ tồn tại dưới dạng PDF hình ảnh được quét - có một khoảng cách tuân thủ GDPR, không phải ngoại lệ.

Cách Phát hiện PII Dựa trên Hình ảnh Hoạt động

Đường ống kỹ thuật để phát hiện PII của tài liệu dựa trên hình ảnh kết hợp hai giai đoạn:

Giai đoạn 1: Nhận dạng Ký tự Quang học (OCR)

  • Đầu vào: PDF được quét hoặc tệp hình ảnh
  • Công cụ OCR trích xuất văn bản từ hình ảnh được quét
  • Đầu ra: văn bản có thể đọc bằng máy với tọa độ vị trí
  • Thách thức: chữ viết tay, chất lượng quét kém, mực phai và kiểu chữ cũ làm giảm độ chính xác OCR

Giai đoạn 2: Phát hiện PII NLP

  • Đầu vào: Văn bản được trích xuất bằng OCR
  • Nhận dạng Thực thể Được đặt tên (NER) xác định tên người, tổ chức, địa điểm
  • Khớp mẫu xác định SSN, số điện thoại, địa chỉ email, số tài khoản
  • Đầu ra: các thực thể PII được phát hiện với điểm số tự tin và tham chiếu vị trí

Giai đoạn 3: Vô danh hóa

  • Các thực thể được phát hiện được vô danh hóa trong đầu ra văn bản được trích xuất
  • Đối với PDF hình ảnh: đầu ra là tài liệu văn bản được vô danh hóa (hình ảnh gốc không được sửa đổi - sửa đổi hình ảnh sẽ yêu cầu công cụ đánh dấu PDF)
  • Văn bản được vô danh hóa cho phép phản ứng DSAR, thực hiện yêu cầu xóa và tài liệu tuân thủ

Chất lượng OCR là ràng buộc kỹ thuật chính. Đối với các tài liệu in chất lượng tốt, các công cụ OCR hiện đại đạt độ chính xác ký tự 98-99%. Đối với chữ viết tay hoặc quét bị suy giảm, độ chính xác có thể từ 85-92%. Để phát hiện PII, độ chính xác ở cấp độ thực thể (xác định chính xác rằng tên xuất hiện trong tài liệu, ngay cả khi các ký tự riêng lẻ có lỗi nhỏ) thường cao hơn độ chính xác ở cấp độ ký tự.

Xử lý Thực tế cho Lưu trữ Lớn

Đối với các tổ chức có các lưu trữ kế thừa lớn, quy trình công việc hoạt động:

Giai đoạn Kiểm kê:

  • Lập danh sách tất cả các lưu trữ PDF dựa trên hình ảnh theo hệ thống nguồn và phạm vi ngày
  • Ước tính khối lượng và ưu tiên theo rủi ro xóa yêu cầu (hồ sơ đối mặt với khách hàng trước)

Xử lý Hàng loạt:

  • Xử lý lưu trữ theo lô (5.000-10.000 tệp trên mỗi lô là điển hình)
  • OCR + phát hiện PII chạy không đồng bộ
  • Đầu ra: báo cáo phát hiện PII trên mỗi tệp và trích xuất văn bản được vô danh hóa

Thực hiện Xóa yêu cầu:

  • Chủ thể dữ liệu gửi yêu cầu xóa với tên và khoảng thời gian liên quan
  • Tìm kiếm trích xuất văn bản được vô danh hóa cho các mã được giả danh được liên kết với chủ thể dữ liệu
  • Xác định các tài liệu cụ thể chứa hồ sơ của chủ thể dữ liệu
  • Xử lý các tài liệu cụ thể đó để đánh dấu (sửa đổi PDF hình ảnh gốc)
  • Ghi lại hành động xóa

Tuân thủ Liên tục:

  • Các tài liệu được quét mới được xử lý thông qua cùng một đường ống trước khi lưu trữ
  • Báo cáo phát hiện PII được giữ lại như bằng chứng Hoạt động Ghi chép (RoPA) của Điều 30 GDPR

Trường hợp Sử dụng: Lưu trữ 20 Năm của Công ty Luật

Công ty luật thực hiện kiểm toán GDPR đã phát hiện 80.000 hợp đồng khách hàng PDF dựa trên hình ảnh được quét từ năm 1998 đến 2010. Các công cụ PII tiêu chuẩn trả về số không - định dạng dựa trên hình ảnh không nhìn thấy được.

Vấn đề tuân thủ là cụ thể: 15 cựu khách hàng đã gửi yêu cầu xóa trong vòng 12 tháng trước đó. Phản hồi của công ty: "Chúng tôi không thể xác nhận dữ liệu của bạn đã bị xóa vì hồ sơ lịch sử của chúng tôi ở định dạng hình ảnh mà chúng tôi không thể xử lý." Đây không phải là phản hồi tuân thủ theo GDPR Điều 17.

Cách tiếp cận Xử lý:

  • OCR + phát hiện PII trên tất cả 80.000 tài liệu theo lô 5.000
  • Thời gian xử lý: xấp xỉ 3 tuần xử lý hàng loạt
  • Kết quả: 80.000 trích xuất văn bản được vô danh hóa với báo cáo phát hiện PII trên mỗi tệp
  • Chỉ mục có thể tìm kiếm của các thực thể được phát hiện được liên kết với ID tài liệu

Xử lý Yêu cầu Xóa sau xử lý:

  • Thời gian trung bình xác định tài liệu cho một chủ thể dữ liệu cụ thể: 4 phút (tìm kiếm trên trích xuất văn bản được vô danh hóa)
  • Số lượng tài liệu trên yêu cầu xóa: trung bình 6-8 tài liệu
  • Đánh dấu các tài liệu được xác định: 20-30 phút cho mỗi yêu cầu

Trước đây là bất khả năng tuân thủ: đã thực hiện được. 15 yêu cầu xóa còn lại được giải quyết trong vòng 30 ngày kế từ hoàn tất xử lý lưu trữ.

Hạn chế OCR và Quản lý Chất lượng

Đánh giá trung thực về phát hiện PII dựa trên OCR cho các tài liệu kế thừa yêu cầu công nhận các hạn chế:

Độ chính xác chữ viết tay: Các tài liệu viết tay (các tuyên bố cá nhân, mẫu đơn được điền bằng tay) có độ chính xác OCR thấp hơn so với các tài liệu in. Phát hiện PII trên nội dung viết tay yêu cầu điều chỉnh ngưỡng tự tin.

Chất lượng quét bị suy giảm: Các tài liệu được quét ở độ phân giải thấp hoặc với độ phơi sáng kém có độ chính xác OCR giảm. Xử lý trước (tăng cường tương phản, loại bỏ lệch) có thể cải thiện kết quả.

Phông chữ và định dạng bất thường: Phông chữ tiền kỹ thuật số, định dạng tài liệu pháp lý có bố cục bất thường và các tài liệu nhiều cột có thể có độ chính xác OCR thấp hơn.

Cài đặt Ngưỡng Chất lượng: Để lập tài liệu tuân thủ, rất thích hợp để phân loại tài liệu theo OCR tự tin: độ chính xác cao (>95% độ chính xác trang) thích hợp để xử lý tự động; độ chính xác trung bình (80-95%) thích hợp để xử lý tự động với xem xét lại con người của các thực thể được gắn cờ; độ chính xác thấp (<80%) yêu cầu xem xét thủ công.

Đối với các tổ chức có các lưu trữ lớn của các tài liệu lịch sử bị suy giảm, cách tiếp cận hỗn hợp - xử lý tự động cho các tài liệu có độ tin cậy cao, hàng đợi xem xét thủ công cho các tài liệu độ tin cậy thấp - cung cấp thông lượng thực tế trong khi duy trì chất lượng tuân thủ.

Nguồn:

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.