anonym.legal
Назад до блогуGDPR та відповідність

Анонімізація vs Псевдонімізація за GDPR...

Чим відрізняється анонімізація від псевдонімізації за GDPR і чому ця різниця коштує компаніям мільйони.

April 19, 20268 хв читання
GDPR anonymization pseudonymizationArticle 4 recital 26personal data scope20 million EUR fineanonymization compliance determination

Чому різниця між анонімізацією і псевдонімізацією критична

€20 мільйонів — максимальний штраф за порушення GDPR. Саме стільки заплатила одна з компаній після того, як регулятор визнав їхні «анонімізовані» дані насправді псевдонімізованими, що підпадали під дію GDPR.

Це не термінологічна дискусія. Це фундаментальна правова різниця, що визначає:

  • Чи застосовується до ваших даних GDPR
  • Чи потрібна вам правова підстава для обробки
  • Які зобов'язання у вас щодо суб'єктів даних

Визначення за GDPR

Анонімізація

Визначення: Обробка персональних даних таким чином, що особа більше не може бути ідентифікована — ані контролером, ані будь-якою іншою особою, з урахуванням усіх засобів, що можуть бути використані.

Ключові слова: «будь-якою іншою особою», «всі засоби». Якщо хтось на планеті міг би теоретично використати додаткову інформацію для ідентифікації — дані вважаються не анонімними.

Правові наслідки: GDPR не застосовується до справді анонімізованих даних. Регламент прямо виключає їх зі сфери дії (Recital 26).

Псевдонімізація

Визначення (ст. 4(5)): Обробка персональних даних таким чином, що вони більше не можуть бути атрибутовані конкретному суб'єкту даних без використання додаткової інформації — якщо така інформація зберігається окремо і захищена технічними та організаційними заходами.

Приклад: заміна імені «Іван Петренко» на ідентифікатор «USR_4729». Якщо ключ відповідності існує — це псевдонімізація, не анонімізація.

Правові наслідки: GDPR повністю застосовується. Псевдонімізовані дані залишаються персональними.

Технічні критерії дійсної анонімізації

EDPB та Стаття 29 Робочої групи визначили три критерії для оцінки анонімізації:

1. Неможливість виокремлення (Singling out)

Чи можна виділити конкретну особу серед усього набору даних?

Тест: якщо набір містить 1 000 записів і один з них — єдина 73-річна жінка у конкретному районі, вона може бути виокремлена.

2. Неможливість зв'язування (Linkability)

Чи можна пов'язати записи, що стосуються однієї особи?

Тест: якщо є два набори даних і можна встановити, що запис A у наборі 1 і запис B у наборі 2 стосуються одної особи — зв'язування можливе.

3. Неможливість висновування (Inference)

Чи можна зробити висновок про ознаку особи з імовірністю, вищою за випадкову?

Тест: якщо знаючи, що особа часто відвідує кардіолога, можна зробити висновок про серцеве захворювання — висновування можливе.

Вимога: Дійсна анонімізація повинна протистояти всім трьом критеріям.

Реальна судова практика: Провальні «анонімізації»

Netflix Prize dataset (класичний випадок)

Netflix опублікував «анонімізований» набір даних для конкурсу рекомендаційних систем. Дослідники Наін і Шматіков деанонімізували 99% записів, порівнюючи з публічними IMDB-оцінками.

Урок: Псевдонімізація (заміна імені ID) + наявність допоміжних даних = деанонімізація.

AOL пошукові запити

AOL опублікував «анонімізовані» пошукові запити 650 000 користувачів. NYT деанонімізував конкретну 62-річну жінку за трьома пошуковими запитами.

Мобільні дані про місцезнаходження

Дослідження 2013 року показало: 4 точки місцезнаходження (будь-яке дискретне виміряне місце та час) достатньо для ідентифікації 95% осіб у великому наборі мобільних даних.

Штрафи за неправильну класифікацію

€14,5 мільйона — H&M (Гамбург, 2020)

Хоча це порушення пов'язане з незаконним моніторингом співробітників, суть проблеми — дані, які компанія вважала захищеними, виявились легко атрибутованими до конкретних осіб.

€20 мільйонів — Telecom Italia (2022)

Регулятор визнав «анонімізовані» маркетингові дані псевдонімізованими і застосував максимальний штраф за незаконну обробку.

€5 мільйонів — Azienda Socio Sanitaria (2021)

Медичні дані, опубліковані як «статистика», деанонімізовані через надто деталізовану класифікацію.

Коли псевдонімізація є достатньою

Псевдонімізація, хоча й не виводить дані з-під GDPR, дає реальні переваги:

Ст. 25 — Privacy by Design: псевдонімізація є однією з технічних мір за замовчуванням.

Ст. 89 — Дослідження: дозволяє обробляти дані для наукових цілей за умови псевдонімізації.

Ст. 83 — Пом'якшення штрафів: наявність псевдонімізації є пом'якшуючим фактором при визначенні штрафу.

Recital 28: Застосування псевдонімізації сприяє виконанню вимог GDPR.

Практичне керівництво: Вибір підходу

Коли прагніть до анонімізації

СценарійТехнікаРизик
Публікація статистикиАгрегування + k-анонімністьМалий, якщо k≥5
Навчання ML-моделейДиференційна конфіденційністьЗалежить від ε
Аналіз тенденційСинтетичні даніЯкість даних
Відкриті даніУзагальнення + шумКорисність даних

Коли псевдонімізація є правильним вибором

  • Внутрішній аналіз, де можливе відновлення даних
  • Клінічні дослідження (потрібна зворотна атрибуція для безпеки)
  • Обробка скарг і відповіді на DSAR
  • Будь-який сценарій, де потрібна зворотна можливість

Впровадження технічно правильної анонімізації

K-анонімність

Кожен запис неможливо відрізнити від щонайменше k-1 інших записів за квазі-ідентифікаторами.

# Перевірка k-анонімності в pandas
def check_k_anonymity(df, quasi_identifiers, k=5):
    groups = df.groupby(quasi_identifiers).size()
    violations = groups[groups < k]
    return len(violations) == 0, violations

Диференційна конфіденційність

Додавання математично відкаліброваного шуму для захисту індивідуальних записів.

Узагальнення

Заміна конкретних значень діапазонами: вік 34 → «30-39».

Висновок

Псевдонімізація ≠ анонімізація. Ця різниця коштувала компаніям десятки мільйонів євро штрафів і ще більше — в репутаційних збитках.

Перед тим, як оголосити дані «анонімними», застосуйте тест трьох критеріїв EDPB і проведіть незалежну оцінку ризику деанонімізації.

Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.