By · Last updated 2026-03-05

Quay lại BlogCông Nghệ Pháp Lý

Hồ Sơ Epstein: Tô Đen Không Phải Là Xóa Dữ Liệu

Việc Bộ Tư pháp công bố hồ sơ Epstein vào tháng 12 năm 2025 đã phơi bày một lỗ hổng xóa thông tin nghiêm trọng: văn bản được tô đen trong PDF vẫn có thể đọc được qua sao chép và dán.

March 5, 20267 phút đọc
document redactionPDF redaction failurelegal complianceWord redaction

Sự Cố Xóa Thông Tin Tháng 12 Năm 2025

Cập nhật cho năm 2026

Bộ Tư pháp Hoa Kỳ công bố hồ sơ Epstein vào tháng 12 năm 2025. Tin tức nhanh chóng chuyển từ nội dung sang phần thông tin bị xóa. Trọng tâm là việc những phần bị xóa đó dễ dàng bị vượt qua đến mức nào.

Phương pháp rất đơn giản. Nội dung "bị xóa" trong các tệp PDF bị che bằng cách tô đen. Nhưng các từ vẫn còn trong lớp văn bản của PDF. Sao chép hộp đen vào trình soạn thảo văn bản và các từ gốc xuất hiện. Lớp che phủ trực quan không phải là xóa thực sự. Dữ liệu nhạy cảm chưa bao giờ được xóa bỏ.

Đây không phải là lỗi mới. Vụ Anthony Pellicano năm 2007 đã có dữ liệu nhạy cảm bị lộ qua việc xóa thông tin không đúng cách trong các tài liệu pháp lý. Lỗi tương tự xuất hiện trong các hồ sơ tòa án và báo cáo chính phủ trong nhiều năm. Tuy nhiên, hồ sơ Epstein đã làm cho lỗ hổng này hiện ra trước hàng chục triệu người trong thời gian thực.

Để biết thêm về việc ẩn danh hóa tài liệu trong bối cảnh pháp lý, xem tổng quan tuân thủ của chúng tôi.

Che Phủ Bằng Mắt So Với Xóa Thực Sự

Tại sao điều này cứ xảy ra lại? Câu trả lời nằm ở một khoảng cách kỹ thuật then chốt. Có sự khác biệt giữa che phủ trực quan và xóa thực sự.

Che phủ trực quan đặt một yếu tố lên trên các từ. Nó không xóa những từ đó khỏi tệp. Tất cả các phương pháp sau đây đều thuộc nhóm này: Tô nền đen bằng highlight. Chữ trắng trên trang trắng thay đổi màu sắc để trùng khớp. Hình chữ nhật đen vẽ lên trên văn bản che khuất tầm nhìn. Annotation trong PDF thêm lớp không trong suốt lên trên. Lớp phủ hình ảnh đặt ảnh đen lên trên các từ.

Trong mọi trường hợp, các từ gốc vẫn còn trong tệp. Chúng có thể được tìm thấy bằng cách sao chép vùng đó hoặc xóa lớp phủ. Người có kỹ năng kỹ thuật cũng có thể quét tệp thô.

Xóa thực sự loại bỏ các từ khỏi tệp vĩnh viễn. Nội dung không bị ẩn - nó biến mất. Không còn gì để tìm.

Câu hỏi then chốt cho bất kỳ tệp nào bạn gửi ra ngoài: khi ai đó kiểm tra tệp này, họ có tìm thấy các từ gốc không? Với che phủ trực quan, câu trả lời là có. Xem thuật ngữ của chúng tôi để biết định nghĩa các thuật ngữ liên quan đến xóa thông tin.

Vấn Đề Với Tài Liệu Word

Lỗi tương tự cũng tồn tại trong Microsoft Word. Sử dụng tô đen highlight hoặc hộp mờ để "xóa" tệp Word vẫn để lại các từ gốc trong XML của tài liệu.

Điều này quan trọng vì Word là định dạng chính cho thư pháp lý, hợp đồng, hồ sơ nhân sự và các đánh giá nội bộ. Các tổ chức sử dụng highlight đã gửi các hồ sơ có dữ liệu có thể tìm thấy trong suốt lịch sử của họ.

71% nhóm pháp lý sử dụng công cụ AI dù có lo ngại về lưu trữ thông tin (khảo sát ACC 2025). Khi các công cụ AI tham gia vào công việc xử lý tài liệu, nguy cơ phát hiện ra những lỗi xóa thông tin cũ ngày càng tăng. Một AI đọc tệp của bạn có thể tìm thấy các từ trong các phần "bị xóa" chưa bao giờ thực sự bị xóa.

Các Vụ Xóa Thông Tin Thất Bại Nổi Tiếng

Hồ sơ Epstein không phải là vụ xóa thông tin thất bại nổi tiếng đầu tiên.

Vụ Anthony Pellicano (2007) có dữ liệu nhạy cảm bị lộ qua các tài liệu bị xóa thông tin không đúng cách được nộp tại tòa liên bang. [ĐÃ XÁC MINH-BÊN NGOÀI]

Các tài liệu NSA được công bố qua yêu cầu FOIA nhiều lần có văn bản có thể đọc dưới các hộp đen. Các nhà nghiên cứu bảo mật đã ghi lại điều này trong các phiên bản an ninh quốc gia. [ĐÃ XÁC MINH-BÊN NGOÀI]

Các hồ sơ kiện tụng doanh nghiệp thường có nội dung có thể đọc khi các bên sử dụng lớp annotation PDF thay vì xóa thực sự. [ĐÃ XÁC MINH]

Mẫu hình này cho thấy một khoảng cách cơ bản. Các nhóm pháp lý nghĩ về việc xóa thông tin như một hành động trực quan. Nhưng các định dạng PDF và Word chứa dữ liệu có cấu trúc bất kể những gì bạn thấy trên màn hình.

Yêu Cầu Đối Với Xóa Thông Tin Thực Sự

Để một tệp được xóa thông tin thực sự, các từ phải được loại bỏ và thay thế. Người có kỹ năng không thể khôi phục chúng.

Trong tệp PDF, xóa thông tin thực sự cần bốn điều. Thứ nhất, làm phẳng PDF để xóa tất cả các lớp có thể chỉnh sửa. Thứ hai, thay thế nội dung bằng hộp đen ở cấp độ luồng nội dung. Thứ ba, xóa metadata có thể chứa các từ gốc. Thứ tư, xóa các font nhúng có thể cho phép phục hồi.

Trong tệp Word, xóa thông tin thực sự cần ba điều. Thứ nhất, tìm mọi trường hợp của nội dung đích - trong các thay đổi được theo dõi, bình luận, metadata và lịch sử phiên bản. Thứ hai, thay thế nội dung, không che phủ nó về mặt trực quan. Thứ ba, bảo tồn định dạng mà không để lại dấu vết.

Từ khóa là thay thế. Nội dung gốc phải được thay thế bằng cái gì đó khác, không phải ẩn bên dưới cái gì đó khác.

Đầu Trang, Chân Trang và Các Vùng Ẩn

Việc xóa thông tin trong tài liệu pháp lý có nhiều lớp hơn chỉ phần thân chính. Dữ liệu nhạy cảm thường xuất hiện trong các vùng mà công cụ trực quan bỏ qua hoàn toàn.

Đầu trang và chân trang thường chứa tên vụ việc, mã khách hàng và số tài liệu. Tô đen phần thân hợp đồng trong khi để lại "Privileged - Re: TechCorp" trong đầu trang là vô nghĩa.

Bình luận và thay đổi được theo dõi là nguồn tiết lộ không chủ ý phổ biến. Người đánh giá bình luận "xem ghi chú của John Smith" để lại điều đó trong tệp. Nó vẫn còn đó ngay cả sau khi điều khoản bị che phủ.

Thuộc tính tài liệu và metadata chứa tên tác giả và lịch sử phiên bản. Những điều này có thể tiết lộ nguồn gốc của tài liệu ngay cả khi phần thân bị tô đen.

Lịch sử phiên bản trong Word bảo tồn các phiên bản trước của nội dung đã chỉnh sửa. Tệp từng nói "địa chỉ nhà của nguyên đơn là 123 Main Street" giữ lại phiên bản đó. Nó vẫn còn đó trừ khi bạn xóa sạch.

Xây Dựng Quy Trình Tuân Thủ

Với những phương thức thất bại này, một quy trình xóa thông tin hợp lý cần bốn bước.

1. Sử dụng tích hợp Word gốc cho các tệp Word. Việc xóa thông tin trong mô hình đối tượng Word thay thế nội dung trực tiếp trong tệp. Điều này tránh được vấn đề che phủ. Chuyển đổi sang PDF trước làm tăng rủi ro và có thể bỏ lỡ bình luận và lịch sử phiên bản.

2. Xử lý tất cả các vùng tài liệu. Quy trình tuân thủ phải xử lý đầu trang, chân trang, chú thích cuối trang, chú thích cuối văn bản, bình luận, thay đổi được theo dõi và thuộc tính tài liệu - không chỉ phần thân chính.

3. Xác minh đầu ra. Sau khi xóa thông tin, hãy cố gắng khôi phục nội dung. Sao chép và dán các vùng đã xóa. Kiểm tra XML của tài liệu. Xem lại các thay đổi được theo dõi và lịch sử phiên bản. Nếu nội dung gốc xuất hiện bất cứ đâu, việc xóa thông tin là chưa hoàn chỉnh.

4. Duy trì dấu vết kiểm toán. Đối với các bản sản xuất pháp lý, hãy ghi lại những gì đã được xóa, bằng phương pháp nào và bởi ai. Điều này quan trọng nếu tranh chấp đặc quyền phát sinh. Tìm hiểu thêm tại trang bảo mật và tuân thủ của chúng tôi.

Bài Học Từ Hồ Sơ Epstein

Sự thất bại của hồ sơ Epstein là một bài học công khai. Nó cho thấy điều gì xảy ra khi che phủ trực quan bị nhầm lẫn với xóa thông tin thực sự.

Mỗi nhóm pháp lý và chuyên gia tuân thủ theo dõi câu chuyện này nên đặt ra hai câu hỏi. Thứ nhất, những gì có trong các bản sản xuất tài liệu trong quá khứ của chúng ta có thể được khôi phục tương tự không? Thứ hai, quy trình hiện tại của chúng ta có thực sự xóa nội dung hay chỉ che phủ nó?

Câu trả lời xác định nguy cơ thực tế - không chỉ là sự tồn tại của chính sách xóa thông tin.


Office Add-in của anonym.legal thực hiện thay thế PII thực sự trong các tệp Word. Nó thay thế nội dung trực tiếp trong cấu trúc tài liệu, không phải che phủ lên trên về mặt trực quan. Đầu trang, chân trang, chú thích cuối trang, bình luận và thay đổi được theo dõi đều được xử lý. Kết quả là một tệp mà dữ liệu gốc vắng mặt, không bị ẩn. Tìm hiểu thêm.

Nguồn

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.