IMY的匿名化领导
IMY(瑞典数据保护当局,Integritetsskyddsmyndigheten)在匿名化上的工作是欧盟最完整的。
2024年,IMY发布了"匿名化过程和风险评估"指南,这是欧盟任何DPA发布的最详细的指导。
为什么匿名化很重要?
GDPR不适用于真正的匿名数据。如果您可以匿名化,您就摆脱了GDPR限制。
问题是:许多组织声称有"匿名化"的数据,但实际上有"假名化"的(即,更改名称但仍可识别)。
真正匿名化 vs 假名化
假名化(GDPR第32条):
- 您替换直接标识符(名称→代码ABC123)
- 数据仍然可以通过其他标识符识别(地址、购买历史等)
- 假名化数据仍然是PII——GDPR仍然适用
真正匿名化(GDPR第4条):
- 不可能识别原始人
- 即使与其他数据结合
- 真正匿名数据不是PII——GDPR不适用
IMY说许多"匿名化"项目实际上是假名化。
IMY的匿名化标准
IMY指出,要判断数据是否真的匿名化,问自己:
-
单独识别的风险
- 是否可能使用直接标识符(名称)识别某人?
- 是否可能使用准标识符(地址、出生日期)?
- 答案必须是"不,不可能。"
-
联系风险
- 您是否可以与其他数据库联系来识别某人?
- 例如,一个客户数据库与一个人口普查数据库
- 答案必须是"不,无法链接。"
-
推断风险
- 是否可能从剩余属性推断某人的身份?
- 例如,"高收入、居住在邮政编码12345、出生于1975年"
- 答案必须是"不,无法推断。"
If任何答案是"可能",数据没有真正匿名化。
IMY匿名化方法
IMY列出了几种匿名化技术:
1. 广义化
降低数据的粒度:
代替:"出生于1985年3月15日" 做:"出生于1985年"
代替:"住在邮政编码12345" 做:"住在瑞典"
风险:如果只有一个人出生于1985年3月15日在邮政编码12345,广义化到"1985"和"瑞典"可能仍然不够。
2. 抑制
Delete敏感字段完全:
代替:[名称,地址,出生日期,收入] 做:[,,___ ,收入]
风险:如果所有值都被抑制,数据对分析没有用。
3. 扰动
Add随机噪声到数值字段:
原始收入:€50,000 扰动收入:€50,000 ± €5,000随机值
风险:扰动可能太小(仍可识别)或太大(数据对分析无用)。
4. Top and Bottom编码
Group极端值:
代替:[€10,000,€15,000,€200,000,€300,000] 做:[€10K-30K,€10K-30K,€200K+,€200K+]
风险:Top / bottom编码可能仍允许通过其他属性识别。
IMY对GDPR附件中案例的分析
IMY分析了GDPR的官方案例中关于匿名化的内容。关键一个是关于IP地址的。
案例:Bavarian Lager
DPA说:IP地址与Cookie ID + 时间戳相结合可以识别某人。因此,即使名称被移除,IP地址仍然可以识别某人。
IMY说:这意味着如果您有[IP地址,Cookie ID,时间戳]但没有[名称],用户仍然可能可识别。
因此,"移除名称但保留IP"不是有效的匿名化。
为什么许多"匿名化"项目失败
原因1:没有评估联系风险
Organizations移除直接标识符但不评估与其他数据的联系风险。
Example:您移除客户名称,但数据保留[订购历史,交付地址,电话号码]。该地址可以识别某人。
原因2:没有评估推论风险
Organizations低估了从多个属性的组合推断身份的风险。
Example:30岁的女性,住在邮政编码98765,是一名医生,有三个孩子。该描述可能唯一地识别某人。
原因3:评估不包括第三方数据
Organizations说"我们的数据中没有任何人的名字,所以它是匿名化的。"但他们没有考虑与公开信息的联系。
Example:您有一个包含[职务,公司,薪资级别]的员工数据库。即使没有名字,该组合可能在LinkedIn或公司网站上识别某人。
IMY建议的匿名化流程
-
清单
- 列出所有数据字段
-
识别直接标识符
- 哪些字段直接识别某人?
- (名称,SSN,电子邮件,电话号码等)
- Remove or encrypt these
-
识别准标识符
- 哪些字段的组合可能识别某人?
- (地址,出生日期,职业,性别等)
- Evaluate linkage risk to other databases
-
应用广义化或抑制
- 对于准标识符,减少粒度或移除
- Keep only fields necessary for analysis
-
评估推论风险
- 从剩余字段,是否可能推断身份?
- Apply additional generalization or suppression if needed
-
文件化过程
- Record什么被移除,为什么
- Show risk assessment results
- Keep as audit trail
瑞典特定的PII
personnummer(个人号码)
- 瑞典国民ID(类似SSN)
- Luhn算法可验证有效
- IMY要求personnummer始终移除或加密
底线
IMY的匿名化指导是欧盟最实用的。关键外卖:
大多数"匿名化"项目实际上是假名化。真正的匿名化需要评估多个风险(单个、联系、推论)并应用足够的广义化或抑制。
来源: