anonym.legal
Назад до блогуGDPR та відповідність

Чому «видалити стовпець email» недостатньо...

Видалення стовпця email залишає PII у полях вільного тексту, нотатках клієнтів та стовпцях коментарів.

April 21, 20267 хв читання
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Чому «видалити стовпець email» недостатньо

PII вільного тексту у CSV: невидимий ризик

При підготовці набору даних для наукового обміну стандартний підхід:

  1. Видалити стовпець email
  2. Видалити стовпець phone
  3. Видалити стовпець name
  4. Ділитися.

Але CSV-файли досліджень містять поля вільного тексту, що накопичують PII поза структурованими стовпцями:

Приклад: Набір даних медичного дослідження:

id,age,condition,notes
1,45,diabetes,"Пацієнт згадав, що жовтня 2023 р. його лікував Др. Джон Сміт"
2,67,hypertension,"Пацієнт контактував через john.doe@email.com для подальшого спостереження"
3,32,asthma,"Направлено до Загальної лікарні, палата 4B, контакт: 555-123-4567"

Структуровані стовпці (id, age, condition) не мають PII. Стовпець notes містить:

  • Ім'я та прізвище лікаря
  • Адресу електронної пошти
  • Назву установи та відділення
  • Номер телефону

Рішення: аналіз стовпців вільного тексту

Підхід:

  1. Виявити CSV-стовпці, що містять текст вільної форми (vs. структурованих числових/категоріальних полів)
  2. Застосувати виявлення PII NER до кожного стовпця вільного тексту окремо
  3. Звітувати про знайдені сутності: стовпець, рядок, тип сутності, довірча оцінка
  4. Застосувати автоматизовану заміну або позначити для людського огляду

Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.