Phân Mảnh Định Dạng Tài Liệu: Thách Thức Vô Danh Hóa
Cảnh Quay: DSAR Điển Hình
Khách hàng yêu cầu: "Cung cấp cho tôi tất cả dữ liệu cá nhân của bạn có về tôi."
Tập dữ liệu bao gồm:
- Hợp đồng: .DOCX, .ODT (Word)
- Hóa đơn: .PDF (không quét, không quét)
- Ghi chép: .XLSX, .ODS (Excel)
- Email: .EML, .MSG
- Ảnh: .PNG, .JPG (Ảnh chụp màn hình, fax được quét)
- Tệp nhạc: .MP3 (Ghi âm cuộc gọi, danh sách phát)
- Cơ sở dữ liệu: .CSV, .JSON (Xuất)
Vô danh hóa tất cả 7 định dạng với một công cụ:
- Word — Xóa nội dung, thay thế, giữ cấu trúc
- PDF — OCR, sau đó vô danh hóa, sau đó xuất
- Excel — Vô danh hóa ô + công thức + bảng pivot
- Email — Người đưa thư vào, cc, bcc + nội dung
- Hình ảnh — OCR, sau đó vô danh hóa
- Audio — Chép âm thanh hoặc phát hiện người nói?
- CSV — Vô danh hóa cột
Mỗi định dạng có những thách thức riêng của nó.