anonym.legal
Назад към блогаGDPR и съответствие

Защо „Изтриване на имейл колоната“ не е достатъчно...

CSV файловете на анкетата съдържат PII не само в структурирани колони, но и в отговори със свободен текст.

April 21, 20267 мин. четене
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Проблемът структурен срещу свободен текст PII

Изследователските данни, споделяни между академичните институции, пътуват най-често във формат CSV. Когато изследователите подготвят CSV файлове за споделяне, стандартният контролен списък за анонимизиране е базиран на колони: идентифицирайте колони, съдържащи лични данни, изтрийте или псевдонимизирайте тези колони.

Този подход управлява надеждно структурираната PII. Колоната с име „имейл“ съдържа имейл адреси — изтрийте я. Колоната с име „телефон“ съдържа телефонни номера — изтрийте я. Колоната с име „participant_name“ съдържа имена — псевдонимизирайте я.

Какво пропуска подходът за изтриване на колони: PII, вградени в колони за отговор със свободен текст.

Набор от данни за проучване с 5000 реда и 20 колони може да има:

  • 5 структурирани колони с PII (име, имейл, телефон, ID, година на раждане)
  • 15 свободни текстови колони за отговор ("additional_comments", "describe_experience", "what_would_improve", "other_details")

Структурираните колони се почистват чрез изтриване на колони. Колоните със свободен текст са оставени такива, каквито са. Но респондентите в проучването пишат неща като:

  • „Моят лекар в Бостънския медицински център, д-р Мария Сантос, каза, че лечението е експериментално“
  • „Занимавам се с това от инцидента ми през 2019 г., когато колата на Джон Хендерсън се удари в моята“ – „Можете да се свържете с моя болногледач на margaret.wells@gmail.com, ако имате нужда от повече информация“

Тези записи съдържат имена на лица, институционална принадлежност, здравна информация и данни за контакт – нито една от тях не се появява в заглавките на колоните и нито една от тях не е уловена от анонимизирането при изтриване на колони.

Защо това се проваля в стандарта за анонимизиране на GDPR

GDPR Съображение 26 определя анонимните данни като информация, която „не се отнася до идентифицирано или идентифицируемо физическо лице“. Стандартът за анонимизиране е висока летва: данните са анонимни само ако е „невъзможно“ (при разумна оценка) да се идентифицира субектът на данните.

Частично анонимизиран изследователски CSV — изчистени структурирани колони, колони със свободен текст, съдържащи имена на лица — не отговаря на този стандарт. Посочените лица в отговорите в свободен текст могат да бъдат идентифицирани и следователно наборът от данни остават лични данни, предмет на изискванията за защита по член 89 от GDPR.

Това има значение за няколко изследователски контекста:

Освобождаване от член 89 за научни изследвания: GDPR Член 89 позволява обработването на лични данни за научноизследователски цели с намалени задължения, но само когато са налице „подходящи предпазни мерки“. Споделянето на набор от данни, който е частично анонимизиран (но все още съдържа PII в свободен текст), докато се твърди, че отговаря на предпазните мерки по член 89, е несъответствие.

**Одобрение от борда по етика на научните изследвания: ** Повечето академични IRBs и съвети за преглед на етиката изискват споделените набори от данни да бъдат наистина анонимизирани. Частичната анонимност, която оставя незасегната PII със свободен текст, обикновено не отговаря на условията за етично одобрение.

Споразумения за споделяне на данни между институции: DSA за изследователски данни обикновено уточняват, че споделените данни трябва да бъдат анонимизирани според определен стандарт. Частичната анонимност, която не отговаря на GDPR Съображение 26, може да наруши DSA.

Техническото предизвикателство при откриването на PII в свободен текст

Отговорите на анкетата със свободен текст са сред най-предизвикателните цели за откриване на PII, защото:

Контекстуално наименуване: „Д-р Мария Сантос в Бостънския медицински център“ изисква NER да открие „Мария Сантос“ като лице и „Бостънски медицински център“ като организация — не съвпадение на ключова дума. Моделите не са предвидими.

Случайна идентификация: „Колата на Джон Хендерсън се удари в мина“ изисква NER да идентифицира „Джон Хендерсън“ като поименно лице в наративен контекст — не поле с данни, а лице, споменато в история.

Информация за контакт в неочаквани формати: Имейл адресите и телефонните номера, появяващи се в свободен текст, може да имат нестандартно форматиране („свържете се с мен в margaret dot wells в gmail“), което пропуска откриването само на регулярен израз.

Типове обекти, специфични за изследванията: Данните от академични и клинични изследвания често съдържат институционални идентификатори (идентификационни номера на болници, кодове на изследователски обекти), клинична терминология и препратки към местоположение, които са PII в контекста, дори и да не са очевидно такива.

Ето защо базираното на NLP откриване — вместо само съпоставяне на шаблони — е необходимо за истинска анонимност на проучването със свободен текст.

Случай на употреба: Мултиинституционален изследователски консорциум

Изследователски консорциум в три европейски университета проведе проучване за опита на пациентите: 5000 респонденти, 3 структурирани колони с PII и 8 колони с отговори в свободен текст. Данните трябваше да се споделят между институциите за съвместен анализ съгласно споразумение за споделяне на данни и освобождаване от член 89 на GDPR.

Стандартен подход (само изтриване на колона):

  • Премахнати са 3 колони със структурирана лична информация
  • 8 колони със свободен текст, запазени такива, каквито са – Заявление за съответствие: „Изтрити колони с лични данни“
  • Оставащи действителни лични данни: 47 посочени лица, споменати в отговорите със свободен текст, 23 имейл адреса, доброволно посочени в коментари, 18 препратки към местоположение, които биха могли да идентифицират респондентите в контекста

С разпознаване на свободен текст NLP:

  • 3 структурирани PII колони, псевдонимизирани (последователни токени, не са изтрити — запазване на целостта на броя на редовете)
  • 8 обработени колони със свободен текст: открити и заменени имена на 47 лица, открити и маскирани 23 имейл адреса, открити и обобщени препратки към 18 местоположения („Медицински център Бостън“ → „[Здравно заведение]“)
  • Резултат: наистина анонимизиран набор от данни, отговарящ на стандарта GDPR Recital 26
  • Комисията по етика на изследването прие методологията за анонимизиране
  • Съответствие с DSA, потвърдено от DPO преглед

Разликата: вторият подход създава набор от данни, който действително отговаря на стандарта за анонимизиране. Първият подход създава набор от данни, който изглежда анонимизиран, но съдържа разпознаваема информация в колоните, които не са прегледани.

Изграждане на протокол за анонимизиране на изследователски данни

За изследователски екипи, работещи с данни от проучвания и интервюта, структуриран протокол за предварително споделяне:

Стъпка 1: Класификация на колони

  • Категоризирайте всички колони: структурирана PII, структурирана не-PII, отговор със свободен текст
  • Документирайте класификацията

Стъпка 2: Обработка на структурирана лична информация

  • Изтриване (ако не е необходимо за проучване) или псевдонимизиране (ако е необходимо за свързване на запис)
  • Използвани жетони за подмяна на документи

Стъпка 3: Анализ на съдържанието в свободен текст

  • Изпълнете откриване на NLP на всички колони със свободен текст
  • Преглед на откритите обекти: потвърдете кои представляват истинска PII
  • Прилагане на замествания за потвърдени обекти с PII

Стъпка 4: Проверка

  • Извадка от 50-100 реда от изходния набор от данни
  • Ръчен преглед на всички записи в свободен текст, съдържащи открити обекти
  • Потвърдете, че степента на откриване е подходяща за типа колона

Стъпка 5: Документация

  • Документ с методология за анонимизиране: използвани инструменти, открити типове обекти, обработени колони
  • Споделете методологичен документ заедно с анонимизирания набор от данни за етичен преглед

Този протокол трансформира „изтрихме колоната с име“ в защитим, документиран процес на анонимизиране, който отговаря на член 89 на GDPR и изискванията за етика на институционалните изследвания.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.