anonym.legal

By · Last updated 2026-06-05

Назад до блогуGDPR та відповідність

PII у вільному тексті CSV: далі за видаленням стовпців

CSV-файли опитувань містять PII не лише в структурованих стовпцях, але і у відповідях вільного тексту. Стандартне видалення стовпців не виявляє PII, що порушує вимоги GDPR щодо анонімізації.

June 5, 20267 хв читання
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Прогалина, яку видалення стовпців пропускає

Оновлено для 2026 року

Дослідницькі набори даних передаються між університетами у вигляді CSV-файлів. Коли команди готують CSV для передачі, робота ведеться по стовпцях: знайти персональну інформацію, видалити або замінити її.

Цей метод працює для фіксованих полів. Стовпець «email» містить адреси електронної пошти — видаляємо. Стовпець «phone» містить номери телефонів — видаляємо. Стовпець «ім'я учасника» містить імена — замінюємо кодом.

Але стовпці з відповідями вільного тексту — сліпа зона. Видалення позначених стовпців їх не торкається.

Опитування з 5 000 рядків може мати п'ять структурованих стовпців PII та п'ятнадцять стовпців відповідей вільного тексту. Структуровані містять імена, адреси електронної пошти, номери телефонів, ідентифікатори та роки народження. Стовпці вільного тексту містять коментарі, нотатки та пропозиції.

Структуровані стовпці очищуються. Стовпці вільного тексту залишаються в сирому вигляді. Але люди пишуть такі речі:

Перше: «Мій лікар у Київській міській лікарні, доктор Марія Коваль, сказала, що лікування нове.» Друге: «Я маю справу з цим з моєї аварії 2019 року.» Третє: «Ви можете зв'язатися з моїм доглядачем на margaret.wells@gmail.com для отримання деталей.»

Кожен запис називає реальну людину. Деякі містять факти про здоров'я або контактну інформацію. Жодне з цього не відображається в заголовку стовпця. Жодне не виявляється видаленням стовпців.

Чому це не відповідає стандарту GDPR

Рецитал 26 GDPR визначає анонімні записи як записи, що не можуть бути пов'язані з жодною особою. Планка висока. Записи є справді анонімними лише тоді, коли повторна ідентифікація розумно неможлива.

CSV з чистими фіксованими стовпцями, але з названими людьми у відкритому тексті цей тест не проходить. Ці імена ідентифікують людей. Набір даних досі є персональним. Правила Статті 89 GDPR все ще застосовуються. Отже, виникають три ризики.

Виняток для досліджень за Статтею 89: Стаття 89 дозволяє дослідникам обробляти персональну інформацію для науки з меншими обов'язками. Але лише за наявності «належних гарантій». Передача файлу з PII у відкритому тексті з посиланням на захист Статті 89 є юридичною невдачею.

Дозвіл етичної комісії: Більшість IRB та етичних комісій вимагають повної анонімізації для спільних наборів даних. Часткова робота — фіксовані стовпці очищені, вільний текст залишено сирим — зазвичай не проходить перевірку. Комісія може відхилити подання.

Угоди про обмін даними: DSA між установами встановлюють необхідний рівень анонімізації. Часткова робота, що не відповідає Рециталу 26 GDPR, може порушувати DSA. Дивіться наш огляд правової відповідності для розуміння ширшого контексту.

Чому вільний текст так важко очистити

Відповіді на опитування у вільному тексті — одна з найскладніших цілей PII. Ось чому.

Імена в контексті: «Доктор Марія Коваль у Київській міській лікарні» потребує розпізнавання іменованих сутностей (NER) для позначення особи та організації. Списки ключових слів цього не знайдуть.

Імена в розповідях: «Машина Ігоря Петренка вдарила мою» вставляє реальне ім'я в розповідь. Це людина, згадана мимохідь. Лише NER її зафіксує.

Нестандартні формати: Контактна інформація може читатися як «пишіть мені на margaret крапка wells собака gmail». Прості інструменти regex такі записи пропускають.

Специфічні для досліджень терміни: Клінічні опитування часто містять ідентифікатори лікарень, коди ділянок та назви місць. Вони можуть ідентифікувати людину навіть якщо виглядають як загальні дані.

Тому лише пошук за шаблонами недостатній. Для справжньої анонімізації опитувань потрібні інструменти на основі NLP. Дивіться Безпеку та відповідність для технічних варіантів.

Реальний приклад з трьох університетів

Дослідницька команда трьох європейських університетів провела опитування щодо досвіду пацієнтів. Набір даних мав 5 000 респондентів, 3 фіксованих стовпця PII та 8 стовпців вільного тексту. План полягав у передачі файлу між установами відповідно до DSA та Статті 89 GDPR.

Лише з видаленням стовпців:

  • Фіксовані стовпці PII: видалено
  • Стовпці вільного тексту: залишено в сирому вигляді
  • Твердження: «Стовпці PII видалено»
  • PII, що залишився: 47 названих людей, 23 адреси електронної пошти в коментарях, 18 назв місць, що могли ідентифікувати респондентів

З виявленням на основі NLP:

  • Фіксовані стовпці PII: замінено послідовними токенами
  • Стовпці вільного тексту: 47 імен замінено, 23 адреси електронної пошти замасковано, 18 назв місць узагальнено («Київська міська лікарня» → «[Медична установа]»)
  • Результат: файл, що відповідає Рециталу 26 GDPR
  • Метод схвалено етичною комісією
  • DPO підтвердив відповідність DSA

Різниця реальна. Перший результат виглядає чистим. Другий результат є чистим.

П'ятикроковий протокол перед передачею

Використовуйте ці кроки перед передачею будь-якого файлу опитування або інтерв'ю.

Крок 1: Позначте кожен стовпець Позначте кожен стовпець як фіксований PII, фіксований не-PII або вільний текст. Запишіть це.

Крок 2: Обробіть фіксовані PII Видаліть записи, непотрібні для аналізу. Замініть записи, потрібні для зв'язку між записами. Зафіксуйте використані коди.

Крок 3: Скануйте стовпці вільного тексту Запустіть NLP-виявлення на всіх стовпцях вільного тексту. Перегляньте кожен результат. Підтвердьте, які з них є справжніми PII.

Крок 4: Застосуйте заміни Замініть підтверджені PII у виводі вільного тексту. Використовуйте чіткі мітки на кшталт [ОСОБА], [EMAIL] або [МІСЦЕЗНАХОДЖЕННЯ].

Крок 5: Перевірте та задокументуйте Вибірково перегляньте 50–100 рядків з результату. Перевірте вручну записи вільного тексту. Напишіть короткий підсумок: використані інструменти, знайдені типи сутностей, оброблені стовпці. Передайте його разом із файлом для перевірки етичною комісією.

Це перетворює «ми видалили стовпець з іменами» на чіткий задокументований процес. Він відповідає Статті 89 GDPR та стандартам анонімізації, що вимагає більшість етичних комісій. Відвідайте наш центр документації для пов'язаних посібників.

Джерела

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.