By · Last updated 2026-06-05

返回博客法律科技

PDF遮黑陷阱:视觉遮盖如何让敏感数据裸奔

司法部艾普斯坦文件、马纳福特案和NSA泄露事件有一个共同的失败根源:表面遮黑实则保留了可提取的底层文本。了解如何避免这一高风险失误。

June 5, 20268 分钟阅读
PDF redactionlegal redactioncourt filingFOIAdocument security

法律文件安全中最危险的词

本指南已更新至2026年。

当法庭文件上写着「已遮黑」,人们通常认为隐藏的文字已经消失。但事实并非总是如此。任何人都可以复制粘贴一段被黑色方块覆盖的内容,在几秒钟内读出原文。这一漏洞有一个名字:表面遮黑。它已造成真实的损害。

三个案例证明这种风险并非假设。

司法部艾普斯坦文件(2025年12月)。 法庭文件提交时,敏感姓名上覆盖了黑色遮块,但底层文字可通过复制粘贴读取。数小时内,记者便发现了这一问题。检察官主张应当保密的姓名就此曝光。

保罗·马纳福特案(2019年1月)。 辩护律师在提交穆勒调查文件时,使用了Microsoft Word的高亮功能。该功能只是绘制了一个黑色条块,但文字完整保留。简单的粘贴操作将一切暴露无遗,法院对此深感不满。

NSA泄露事件(多年)。 数十年来,NSA发布的PDF文件中多次包含可提取的文字。记者和研究人员屡次发现这一问题,情报界监督委员会因此专门就这一失误发布了正式指导意见。

每次都是同样的模式:有人覆盖了视觉遮块,提交了文件,隐藏的文字随即浮出水面——有时在数小时内,有时在数年后。

为何单靠黑色遮块不够

PDF文件包含三个独立的层次。

内容层存储所有字符、坐标和字体信息。复制粘贴和文本提取工具从这里读取数据。显示层存储视觉呈现指令,包括形状、颜色、图像,以及用作遮盖的黑色矩形。元数据层存储文件属性,如作者姓名、时间戳和修订历史。

表面遮块只存在于显示层,底层的内容层完好无损。执行「全选→复制→粘贴」会返回所有文字,包括被遮块「隐藏」的内容。

只产生视觉遮块的工具

一些常用工具只是在文字上涂色,并不删除文字本身。

Adobe Acrobat绘图工具。 绘制矩形与使用「编辑」功能截然不同,矩形仅作用于视觉层面。

Microsoft Word修订追踪。 即使接受修订后,被删除的内容仍保留在版本历史中,且可被读取。

浏览器PDF批注工具。 这类工具添加黑色高亮,但不修改底层数据。

扫描页面上的图像叠加。 仅在原始文字层已被剥离的情况下才算安全。若未执行该步骤,存储的文字仍然完整。

真正的遮黑需要什么

真正意义上的遮黑需要从内容层删除信息,之后显示层便没有任何内容可以呈现。验证方式是从保存后的文件中提取文本,确认目标内容已不存在。

法庭归档部门和情报机构遵循以下验证流程:

  1. 使用能够修改内容层的工具,而非涂抹工具。
  2. 导出为新的PDF文件,不覆盖原文件。
  3. 用全新的查看器打开新文件,确保与原文件无关联。
  4. 执行「全选→复制→粘贴」,将内容粘贴到纯文本编辑器中。
  5. 搜索隐藏内容的任何片段。
  6. 找到了?文件尚未真正处理,请使用正确工具重新操作。
  7. 未找到?继续进行元数据检查。

第五步是关键测试。视觉叠加工具每次都无法通过。经过正确处理的文件则能够通过。

元数据问题

内容层并非唯一的泄露路径,文件元数据同样可以暴露大量信息。

作者姓名。 通常是创建文件的律师或案件管理人员。

所属机构。 律师事务所或机构名称。

早期版本。 显示文件在任何修改前的原始状态。

修订历史。 存储修订追踪记录和批注。

嵌入缩略图。 可能显示文件的原始未处理状态。

NSA指导文件对此有明确说明:「有把握地进行遮黑处理,要求同时控制元数据。」

对于法庭文件而言,这是一个真实存在的问题。代表匿名当事人提交的文件,其元数据可能透露真实作者姓名;经遮黑处理的版本可能携带原始版本的缩略图。正规工具会将元数据净化作为处理流程的一部分,而视觉叠加工具完全不触及元数据。

法律后果

后果因具体情况而异,但先例对任何使用纯视觉遮黑工具的人都不利。

联邦法院。 《联邦民事诉讼规则》第5.2(e)条要求从提交文件中删除特定标识符。对于此类失误,法院已处以罚款、禁止归档和律师资格纪律处分。

信息公开法争议。 对豁免信息使用视觉叠加的机构,其信息仍可被提取。法院已在此类案例中命令进行真实披露。

国家安全。 通过泄露文件被点名的人员面临有据可查的安全风险,其影响远超名誉损害。

GDPR与HIPAA。 可提取的个人数据构成需上报的数据泄露事件,GDPR第33条和《HIPAA违规通知规则》均适用。

五分钟预归档检查清单

以下检查清单可完全消除视觉叠加风险,每份文件仅需五分钟以内。

  1. 使用内容层工具,不使用绘图或批注工具。
  2. 导出为新PDF文件,不覆盖原文件。
  3. 在新的查看器中打开新文件。
  4. 执行「全选→复制→粘贴」,粘贴到纯文本编辑器。
  5. 搜索隐藏内容中的已知短语。
  6. 找到了?使用正确工具重新操作。
  7. 检查PDF属性:作者、创建者、主题、关键词。
  8. 检查是否存在显示处理前文件状态的嵌入缩略图。
  9. 归档已核验的文件。

花五分钟做这些检查,远比在联邦法官面前为遮黑失败动议辩护的代价低得多。

相关阅读:艾普斯坦文件遮黑失败事件深度解析——2025年12月事件的完整复盘。

另请参阅:AI编程助手与生产环境个人信息泄露——不同的泄露路径,相同的教训。

anonym.legal 为处理敏感文件的机构提供自动化文字层验证服务。

参考资料

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.