Чому «видалити стовпець email» недостатньо
PII вільного тексту у CSV: невидимий ризик
При підготовці набору даних для наукового обміну стандартний підхід:
- Видалити стовпець
email - Видалити стовпець
phone - Видалити стовпець
name - Ділитися.
Але CSV-файли досліджень містять поля вільного тексту, що накопичують PII поза структурованими стовпцями:
Приклад: Набір даних медичного дослідження:
id,age,condition,notes
1,45,diabetes,"Пацієнт згадав, що жовтня 2023 р. його лікував Др. Джон Сміт"
2,67,hypertension,"Пацієнт контактував через john.doe@email.com для подальшого спостереження"
3,32,asthma,"Направлено до Загальної лікарні, палата 4B, контакт: 555-123-4567"
Структуровані стовпці (id, age, condition) не мають PII. Стовпець notes містить:
- Ім'я та прізвище лікаря
- Адресу електронної пошти
- Назву установи та відділення
- Номер телефону
Рішення: аналіз стовпців вільного тексту
Підхід:
- Виявити CSV-стовпці, що містять текст вільної форми (vs. структурованих числових/категоріальних полів)
- Застосувати виявлення PII NER до кожного стовпця вільного тексту окремо
- Звітувати про знайдені сутності: стовпець, рядок, тип сутності, довірча оцінка
- Застосувати автоматизовану заміну або позначити для людського огляду
Джерела: