返回博客法律科技

GDPR与您的Excel文件:电子表格匿名化与文档编辑的不同之处

Excel公式引用包含客户姓名的单元格。数据透视表缓存敏感数据。67%的政府和国防采购RFP需要隔离环境(DISA 2024)。电子表格匿名化需要单元格级别的智能,而不是文本替换。

April 10, 20268 分钟阅读
Excel anonymizationspreadsheet GDPRpivot table redactioncell-level PII detectionformula preservation

为什么电子表格不是文档

Word文档是带有格式元数据的顺序文本流。Excel电子表格是一个关系数据结构:单元格引用其他单元格,公式在单元格范围上操作,数据透视表聚合命名的数据范围,宏遍历电子表格对象模型。将Excel文件视为需要处理PII模式的文本文档——这是大多数文档编辑工具处理电子表格的方式——错过了定义电子表格实际内容的数据关系。

考虑一个客户分析电子表格。A列包含客户姓名。D列包含一个公式:=VLOOKUP(A2, CustomerTable, 5, FALSE)——一个查找,根据客户姓名返回客户的账户余额。如果匿名化工具替换了A列中的姓名,但没有更新公式引用或查找表,公式仍然会返回原始姓名的实际账户余额。这个“匿名化”的文档仍然通过数据关系暴露了原始客户身份。

这不是一个假设的边缘案例。企业Excel文件围绕数据关系构建。在不了解关系结构的情况下匿名替换单个单元格值会产生看似匿名但通过公式引用、数据透视表缓存和跨表查找保留原始数据的文档。

GDPR第三方共享要求

GDPR第28条规定了与处理者的数据共享:与外部方(顾问、分析供应商、审计师)共享个人数据的组织必须确保适当的技术保障。实际问题是:在与外部分析供应商共享包含50,000个客户记录的Excel数据集时,什么是适当的保障?

PDF导出会去除公式并生成快照——但大型Excel文件的PDF导出常常会损坏复杂格式,并不适合分析使用。转换为CSV会去除公式、数据透视表和大部分分析结构。两种选项都无法为外部供应商提供可用于分析目的的数据集。

在本地Excel格式中进行单元格级别的匿名化——替换识别值的同时保留分析结构——是同时满足GDPR保障要求和业务实用性要求的唯一方法。

国防电子表格的隔离处理

67%的政府和国防采购RFP引用了隔离环境要求(DISA 2024)。处理人员数据、物流信息或Excel格式采购记录的国防承包商无法使用基于云的匿名化工具,原因与禁止基于云的文档处理相同:数据不能离开受控网络。

Excel特定的匿名化能力与仅限本地处理的结合,创建了满足政府合同合规性所需的技术配置文件。桌面应用程序在处理过程中本地处理Excel文件,没有网络调用;匿名化结果永远不会离开隔离环境;处理后的文件可在受控网络内进行内部共享。

单元格级别智能

有效的Excel匿名化同时在三个层面上操作:

值级别: 检测和替换单个单元格中的PII值。客户姓名、电子邮件地址、电话号码和国家身份证号码通过用于文档处理的同一混合检测引擎进行识别。

公式级别: 识别公式引用PII包含单元格的单元格,并更新这些引用以指向匿名值,或用其计算结果替换公式,以防止基于公式的PII暴露。

结构级别: 清除数据透视表数据缓存,处理隐藏的行和列,以及处理引用特定单元格地址或值的VBA宏代码。

来源:

准备好保护您的数据了吗?

开始使用 285 种实体类型在 48 种语言中匿名化 PII。