返回博客GDPR 与合规

GDPR与遗留文档档案:如何处理您认为无法触及的80,000份扫描文档

GDPR的删除权适用于“无论格式如何”的个人数据。来自纸质档案的基于图像的PDF不在豁免之列。以下是基于OCR的PII检测如何解决遗留文档问题。

April 21, 20267 分钟阅读
legacy documentsOCR PII detectionGDPR erasurescanned documentsdocument archive

无人谈论的遗留档案问题

进行GDPR合规审计的组织经常发现同一类隐藏风险:在实施数字化程序之前的基于图像的PDF档案。

拥有20年扫描客户文件的法律公司。拥有数十年扫描患者接收表格的医疗提供者。拥有扫描历史记录的政府机构。拥有图像化贷款申请和账户文件的银行。

这些档案有一个共同特征:文档以扫描图像的形式存储(光栅PDF、TIFF或JPEG),而不是文本格式的数字文档。没有文本层可供搜索,没有机器可读的内容供标准PII工具分析。对于传统的匿名化工具来说,这些文档是不可见的。

常见的误解:“这些只是图像文件——GDPR并不适用。”

GDPR文本是明确的。第17条第1款赋予数据主体删除个人数据的权利。第26条说明,个人数据的匿名化是与可识别自然人无关的数据的标准。两个条款均不包括纸质衍生图像格式的豁免。

一家无法响应15年前为客户提供的删除请求的法律公司——因为15年前的客户记录仅以扫描图像PDF的形式存在——存在GDPR合规缺口,而不是豁免。

基于图像的PII检测如何工作

基于图像的文档PII检测的技术流程包括两个阶段:

阶段1:光学字符识别(OCR)

  • 输入:扫描的PDF或图像文件
  • OCR引擎从扫描图像中提取文本
  • 输出:带有位置坐标的机器可读文本
  • 挑战:手写、扫描质量差、墨水褪色和旧字体降低OCR准确性

阶段2:自然语言处理(NLP)PII检测

  • 输入:OCR提取的文本
  • 命名实体识别(NER)识别个人姓名、组织、地点
  • 模式匹配识别社会安全号码、电话号码、电子邮件地址、账户号码
  • 输出:带有置信度分数和位置引用的检测到的PII实体

阶段3:匿名化

  • 检测到的实体在提取的文本输出中被匿名化
  • 对于图像PDF:输出是一个匿名文本文档(原始图像未被修改——图像修改需要PDF编辑工具)
  • 匿名化文本使得DSAR响应、删除请求的履行和合规文档成为可能

OCR质量是主要的技术限制。对于高质量的印刷文档,现代OCR引擎实现98-99%的字符准确性。对于手写或退化的扫描,准确性可能为85-92%。对于PII检测目的,实体级准确性(正确识别文档中出现的名称,即使个别字符有轻微错误)通常高于字符级准确性。

大型档案的实际处理

对于拥有大型遗留档案的组织,操作工作流程:

清单阶段:

  • 按来源系统和日期范围对所有基于图像的PDF档案进行分类
  • 估算数量并根据删除权风险进行优先排序(优先处理面向客户的记录)

批处理:

  • 将档案分批处理(每批5,000-10,000个文件是典型的)
  • OCR + PII检测异步运行
  • 输出:每个文件的PII检测报告和匿名文本提取

删除权履行:

  • 数据主体提交包含姓名和相关时间段的删除请求
  • 在匿名文本提取中搜索与数据主体相关的伪名化标记
  • 确定包含数据主体记录的特定文档
  • 对这些特定文档进行编辑处理(修改原始图像PDF)
  • 记录删除操作

持续合规:

  • 新扫描的文档在归档前通过相同的流程处理
  • 保留PII检测报告作为GDPR第30条处理活动记录的证据

用例:法律公司20年档案

一家进行GDPR审计的法律公司发现80,000份1998年至2010年间扫描的基于图像的PDF客户合同。标准的PII工具未返回任何检测结果——基于图像的格式是不可见的。

合规问题是具体的:15名前客户在过去12个月内提交了删除请求。该公司的回应是:“我们无法确认您的数据已被删除,因为我们的历史记录是以我们无法处理的图像格式存在。”这在GDPR第17条下不是合规的回应。

处理方法:

  • 对所有80,000份文档进行OCR + PII检测,分批处理5,000份
  • 处理时间:大约3周的批处理
  • 结果:80,000份匿名文本提取,附有每个文件的PII检测报告
  • 与文档ID关联的检测到的实体的可搜索索引

删除请求履行后处理:

  • 确定特定数据主体文档的平均时间:4分钟(在匿名文本提取中搜索)
  • 每个删除请求的文档数量:平均6-8份文档
  • 确定文档的编辑:每个请求20-30分钟

之前无法实现的合规义务:已履行。15个未完成的删除请求在完成档案处理后的30天内得到解决。

OCR的局限性和质量管理

对基于OCR的遗留文档PII检测的诚实评估需要承认局限性:

手写准确性: 手写文档(个人陈述、手工填写的申请表)的OCR准确性低于印刷文档。对手写内容的PII检测需要调整置信度阈值。

退化的扫描质量: 低分辨率或曝光不良的扫描文档的OCR准确性降低。预处理(对比度增强、去倾斜)可以改善结果。

不寻常的字体和格式: 前数字化字体、具有不寻常布局的法律文档格式和多列文档的OCR准确性可能较低。

质量阈值设置: 对于合规文档,适合根据OCR置信度对文档进行分类:高置信度(>95%页面准确性)适合自动处理;中等置信度(80-95%)适合自动处理,但需人工审核标记的实体;低置信度(<80%)需手动审核。

对于拥有大量退化历史文档的组织,混合方法——对高置信度文档进行自动处理,对低置信度文档进行手动审核队列——在保持合规质量的同时提供了实际的处理能力。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。