无人谈论的遗留档案问题
进行GDPR合规审计的组织经常发现同一类隐藏风险:在实施数字化程序之前的基于图像的PDF档案。
拥有20年扫描客户文件的法律公司。拥有数十年扫描患者接收表格的医疗提供者。拥有扫描历史记录的政府机构。拥有图像化贷款申请和账户文件的银行。
这些档案有一个共同特征:文档以扫描图像的形式存储(光栅PDF、TIFF或JPEG),而不是文本格式的数字文档。没有文本层可供搜索,没有机器可读的内容供标准PII工具分析。对于传统的匿名化工具来说,这些文档是不可见的。
常见的误解:“这些只是图像文件——GDPR并不适用。”
GDPR文本是明确的。第17条第1款赋予数据主体删除个人数据的权利。第26条说明,个人数据的匿名化是与可识别自然人无关的数据的标准。两个条款均不包括纸质衍生图像格式的豁免。
一家无法响应15年前为客户提供的删除请求的法律公司——因为15年前的客户记录仅以扫描图像PDF的形式存在——存在GDPR合规缺口,而不是豁免。
基于图像的PII检测如何工作
基于图像的文档PII检测的技术流程包括两个阶段:
阶段1:光学字符识别(OCR)
- 输入:扫描的PDF或图像文件
- OCR引擎从扫描图像中提取文本
- 输出:带有位置坐标的机器可读文本
- 挑战:手写、扫描质量差、墨水褪色和旧字体降低OCR准确性
阶段2:自然语言处理(NLP)PII检测
- 输入:OCR提取的文本
- 命名实体识别(NER)识别个人姓名、组织、地点
- 模式匹配识别社会安全号码、电话号码、电子邮件地址、账户号码
- 输出:带有置信度分数和位置引用的检测到的PII实体
阶段3:匿名化
- 检测到的实体在提取的文本输出中被匿名化
- 对于图像PDF:输出是一个匿名文本文档(原始图像未被修改——图像修改需要PDF编辑工具)
- 匿名化文本使得DSAR响应、删除请求的履行和合规文档成为可能
OCR质量是主要的技术限制。对于高质量的印刷文档,现代OCR引擎实现98-99%的字符准确性。对于手写或退化的扫描,准确性可能为85-92%。对于PII检测目的,实体级准确性(正确识别文档中出现的名称,即使个别字符有轻微错误)通常高于字符级准确性。
大型档案的实际处理
对于拥有大型遗留档案的组织,操作工作流程:
清单阶段:
- 按来源系统和日期范围对所有基于图像的PDF档案进行分类
- 估算数量并根据删除权风险进行优先排序(优先处理面向客户的记录)
批处理:
- 将档案分批处理(每批5,000-10,000个文件是典型的)
- OCR + PII检测异步运行
- 输出:每个文件的PII检测报告和匿名文本提取
删除权履行:
- 数据主体提交包含姓名和相关时间段的删除请求
- 在匿名文本提取中搜索与数据主体相关的伪名化标记
- 确定包含数据主体记录的特定文档
- 对这些特定文档进行编辑处理(修改原始图像PDF)
- 记录删除操作
持续合规:
- 新扫描的文档在归档前通过相同的流程处理
- 保留PII检测报告作为GDPR第30条处理活动记录的证据
用例:法律公司20年档案
一家进行GDPR审计的法律公司发现80,000份1998年至2010年间扫描的基于图像的PDF客户合同。标准的PII工具未返回任何检测结果——基于图像的格式是不可见的。
合规问题是具体的:15名前客户在过去12个月内提交了删除请求。该公司的回应是:“我们无法确认您的数据已被删除,因为我们的历史记录是以我们无法处理的图像格式存在。”这在GDPR第17条下不是合规的回应。
处理方法:
- 对所有80,000份文档进行OCR + PII检测,分批处理5,000份
- 处理时间:大约3周的批处理
- 结果:80,000份匿名文本提取,附有每个文件的PII检测报告
- 与文档ID关联的检测到的实体的可搜索索引
删除请求履行后处理:
- 确定特定数据主体文档的平均时间:4分钟(在匿名文本提取中搜索)
- 每个删除请求的文档数量:平均6-8份文档
- 确定文档的编辑:每个请求20-30分钟
之前无法实现的合规义务:已履行。15个未完成的删除请求在完成档案处理后的30天内得到解决。
OCR的局限性和质量管理
对基于OCR的遗留文档PII检测的诚实评估需要承认局限性:
手写准确性: 手写文档(个人陈述、手工填写的申请表)的OCR准确性低于印刷文档。对手写内容的PII检测需要调整置信度阈值。
退化的扫描质量: 低分辨率或曝光不良的扫描文档的OCR准确性降低。预处理(对比度增强、去倾斜)可以改善结果。
不寻常的字体和格式: 前数字化字体、具有不寻常布局的法律文档格式和多列文档的OCR准确性可能较低。
质量阈值设置: 对于合规文档,适合根据OCR置信度对文档进行分类:高置信度(>95%页面准确性)适合自动处理;中等置信度(80-95%)适合自动处理,但需人工审核标记的实体;低置信度(<80%)需手动审核。
对于拥有大量退化历史文档的组织,混合方法——对高置信度文档进行自动处理,对低置信度文档进行手动审核队列——在保持合规质量的同时提供了实际的处理能力。
来源: