anonym.legal

By · Last updated 2026-06-05

Назад на блоготGDPR & Усогласеност

CSV Слободен Текст PII: Подалеку од Бришење Колони

Анкетните CSV-ови содржат лични податоци не само во структурирани колони, туку и во одговори со слободен текст. Стандардното бришење колони ги пропушта личните податоци кои го прекршуваат GDPR.

June 5, 20267 мин читање
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Јазот Кој Бришењето на Колони го Пропушта

Ажурирано за 2026 година

Истражувачките групи на податоци се движат помеѓу универзитетите како CSV фајлови. Кога тимовите подготвуваат CSV за споделување, работата е базирана на колони. Пронајдете ги личните информации. Избришете ги или заменете ги.

Тој метод функционира за фиксни полиња. Колона наречена "е-пошта" содржи е-пошта адреси — избришете ја. Колона наречена "телефон" содржи телефонски броеви — избришете ја. Колона наречена "ime_ucesnika" содржи имиња — заменете ја со шифра.

Но колоните за одговори со слободен текст се слепа точка. Отстранувањето на означените колони не ги допира нив.

Анкета со 5.000 редови може да има пет структурирани PII колони и петнаесет колони за одговори со слободен текст. Структурираните содржат имиња, е-пошти, телефонски броеви, ID-а и години на раѓање. Оние со слободен текст содржат коментари, белешки и предлози.

Структурираните колони се исчистуваат. Колоните со слободен текст остануваат сурови. Но луѓето пишуваат вакви работи, три примери.

Прво: "Мојот лекар во Клиниката за внатрешни болести, д-р Марија Стојановска, рече дека третманот е нов." Второ: "Со ова се занимавам од мојата несреќа во 2019 година." Трето: "Можете да се обратите до мојот негувател на margaret.wells@gmail.com за детали."

Секој запис именува вистинско лице. Некои вклучуваат здравствени факти или контакт информации. Ниту едно од ова не се появува во заглавие на колона. Ниту едно не е фатено со бришење колони.

Зошто Ова Не го Задоволува GDPR Стандардот

GDPR Рецитал 26 ги дефинира анонимните записи како записи кои не можат да бидат поврзани со ниедно лице. Праговникот е висок. Записите се вистински анонимни само кога повторната идентификација не е разумно можна.

CSV со чисти фиксни колони, но именувани луѓе во слободен текст не го поминува тој тест. Тие имиња се идентификувачки. Наборот на податоци е сеуште личен. Правилата на GDPR Член 89 сеуште се применуваат. Така произлегуваат три ризика.

Истражувачко ослободување по Член 89: Член 89 им дозволува на истражувачите да обработуваат лични информации за наука со помалку должности. Но само каде постојат "соодветни заштитни мерки". Споделување фајл со слободен текст со лични податоци додека се тврди покриеност по Член 89 е правен неуспех.

Одобрување на етичка комисија: Повеќето ИРБ-и и етички одбори бараат целосна анонимизација за споделени групи на податоци. Делумната работа — фиксни колони исчистени, слободен текст оставен суров — обично не успева. Одборот може да ја отфрли поднесоката.

Договори за споделување податоци: ДСА-ите помеѓу институциите го поставуваат потребното ниво на анонимизација. Делумна работа која не го задоволува GDPR Рецитал 26 може да го прекрши ДСА. Видете го нашиот Преглед за правна усогласеност за тоа како ова се вклопува во поширока програма.

Зошто Слободниот Текст е Толку Тежок за Исчистување

Одговорите на анкети со слободен текст се меѓу најтешките цели за лични податоци. Еве зошто.

Имиња во контекст: "Д-р Марија Стојановска во Клиниката за внатрешни болести" бара препознавање на именувани ентитети (NER) за да означи лице и организација. Листите на клучни зборови не можат да го пронајдат тоа.

Имиња во приказни: "Автомобилот на Иван Петровски го удри мојот" поставува вистинско ime во рамки на приказна. Тоа е лице споменато во минување. Само NER го фаќа.

Нестандардни формати: Контакт информациите може да читаат "обратете се до мене на margaret точка wells на gmail". Едноставните regex алатки ги пропуштаат.

Термини специфични за истражување: Клиничките анкети честопати содржат болнички ID-а, шифри на локации и имиња на места. Тие можат да идентификуваат лице дури и кога изгледаат генерични.

Значи само совпаѓање со шаблони не е доволно. Потребни се алатки базирани на NLP за вистинска анонимизација на анкети. Видете Безбедност и Усогласеност за технички опции.

Реален Пример Од Три Универзитети

Истражувачки тим на три европски универзитети водеше анкета за искуство на пациентите. Наборот на податоци имаше 5.000 испитаници, 3 фиксни PII колони и 8 колони со слободен текст. Планот беше да се сподели фајлот меѓу локации под ДСА и GDPR Член 89.

Со само бришење колони:

  • Фиксни PII колони: отстранети
  • Колони со слободен текст: оставени сурови
  • Тврдење: "PII колони избришани"
  • Останати лични податоци: 47 именувани луѓе, 23 е-пошта адреси во коментари, 18 имиња на места кои можат да ги идентификуваат испитаниците

Со откривање базирано на NLP:

  • Фиксни PII колони: заменети со конзистентни токени
  • Колони со слободен текст: 47 имиња заменети, 23 е-пошти маскирани, 18 имиња на места направени генерични ("Клиника за внатрешни болести" → "[Здравствена институција]")
  • Резултат: фајл кој го поминува GDPR Рецитал 26
  • Етичката комисија го одобри методот
  • ДЗЛ потврди усогласеност со ДСА

Јазот е реален. Првиот излез изгледа чист. Вториот излез е чист.

Петчекорен Протокол Пред Споделување

Користете ги овие чекори пред споделување на кој-бидело фајл за анкета или интервју.

Чекор 1: Означете ги секоја колона Означете секоја колона како фиксни лични податоци, фиксни не-лични податоци или слободен текст. Запишете го.

Чекор 2: Ракувајте со фиксните лични податоци Избришете ги записите кои не се потребни за анализа. Заменете ги записите потребни за поврзување. Запишете ги употребените шифри.

Чекор 3: Скенирајте ги колоните со слободен текст Извршете NLP откривање на сите колони со слободен текст. Прегледајте го секој резултат. Потврдете кои се вистински лични податоци.

Чекор 4: Применете замени Заменете ги потврдените лични податоци во излезот со слободен текст. Користете јасни ознаки, како [ЛИЦЕ], [Е-ПОШТА] или [ЛОКАЦИЈА].

Чекор 5: Верификувајте и документирајте Земете примерок од 50-100 редови од излезот. Проверете ги записите со слободен текст рачно. Напишете краток резиме: употребени алатки, пронајдени типови ентитети, обработени колони. Споделете го со фајлот за преглед на етичката комисија.

Ова ги претвора "ги избришавме колоните со имиња" во јасен, документиран процес. Го задоволува GDPR Член 89 и стандардите за анонимизација кои повеќето етички комисии ги бараат. Посетете го нашиот центар за документи за поврзани водичи.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.