By · Last updated 2026-06-05

Powrót do blogaGDPR i zgodność

PII w wolnym tekście CSV: co omija usuwanie kolumn

Pliki CSV z badań zawierają dane osobowe nie tylko w kolumnach ustrukturyzowanych, ale i w odpowiedziach tekstowych. Standardowe usuwanie kolumn omija PII naruszające standard RODO Motywu 26.

June 5, 20267 min czytania
research dataCSV anonymizationGDPR Article 89survey datadata sharing

Luka, którą omija usuwanie kolumn

Zaktualizowano w 2026 r.

Zbiory danych badawczych przemieszczają się między uczelniami jako pliki CSV. Gdy zespóły przygotowują CSV do udostępnienia, praca jest oparta na kolumnach. Znajdź dane osobowe. Usuń lub zastąp je.

Ta metoda działa dla stałych pól. Kolumna o nazwie „e-mail” zawiera adresy e-mail — usuń ją. Kolumna o nazwie „telefon” zawiera numery telefonów — usuń ją. Kolumna o nazwie „imię_uczestnika” zawiera imiona i nazwiska — zamień na kod.

Ale kolumny z odpowiedziami tekstowymi to martwy punkt. Usunięcie oznaczonych kolumn ich nie rusza.

Ankieta z 5000 wierszami może mieć pięć kolumn ustrukturyzowanych z danymi osobowymi i piętnaście kolumn z otwartymi odpowiedziami tekstowymi. Ustrukturyzowane zawierają imiona i nazwiska, e-maile, numery telefonów, identyfikatory i lata urodzenia. Otwarte tekstowe zawierają komentarze, uwagi i sugestie.

Kolumny ustrukturyzowane są czyszczone. Kolumny otwarte tekstowe pozostają surowe. Ale ludzie piszą takie rzeczy jak te trzy przykłady.

Pierwszy: „Mój lekarz w Szpitalu Klinicznym, dr Maria Santos, powiedziała, że leczenie jest nowe.” Drugi: „Zmagam się z tym od mojego wypadku w 2019 roku.” Trzeci: „Możesz skontaktować się z moim opiekunem pod adresem margaret.wells@gmail.com, aby uzyskać szczegóły.”

Każdy wpis wymienia prawdziwą osobę. Niektóre zawierają fakty zdrowotne lub informacje kontaktowe. żadne z nich nie pojawia się w nagłówku kolumny. żadne nie jest wykryte przez usuwanie kolumn.

Dlaczego to nie spełnia standardu RODO

Motyw 26 RODO definiuje anonimowe rekordy jako rekordy, których nie można powiązać z żadną osobą. Poprzeczka jest wysoko. Rekordy są naprawdę anonimowe tylko wtedy, gdy ponowna identyfikacja nie jest rozsądnie możliwa.

Plik CSV z czystymi stałymi kolumnami, ale wymienionymi osobami w otwartych tekstach, nie przechodzi tego testu. Te imiona i nazwiska są identyfikowalne. Zbiór danych nadal jest osobowy. Zasady art. 89 RODO nadal obowiązują. Stąd wynikają trzy ryzyka.

Wyjątek badawczy z art. 89: Art. 89 pozwala badaczom przetwarzać dane osobowe do celów naukowych z mniejszymi obowiązkami. Ale tylko tam, gdzie istnieją „odpowiednie zabezpieczenia”. Udostępnienie pliku z danymi osobowymi w otwartym tekście przy powoływaniu się na ochronę art. 89 to błąd prawny.

Zatwierdzenie etyczne: Większość IRB i komisji etycznych wymaga pełnej anonimizacji udostępnianych zbiorów danych. Częściowa praca — kolumny stałe wyczyszczone, otwarty tekst pozostawiony surowy — zazwyczaj nie przechodzi. Komisja może odrzucić wniosek.

Umowy o udostępnianie danych: DSA między instytucjami określają wymagany poziom anonimizacji. Częściowa praca, która nie spełnia Motywu 26 RODO, może naruszać DSA. Zobacz nasz przegląd zgodności prawnej.

Dlaczego otwarty tekst jest tak trudny do wyczyszczenia

Otwarte odpowiedzi na ankiety to jedne z najtrudniejszych celów PII. Oto dlaczego.

Imiona i nazwiska w kontekście: „Dr Maria Santos ze Szpitala Klinicznego” wymaga rozpoznawania nazwanych encji (NER) do oznaczenia osoby i organizacji. Listy słów kluczowych nie mogą tego znaleźć.

Imiona i nazwiska w historiach: „Samochód Jana Kowalskiego uderzył w mój” umieszcza prawdziwe imię i nazwisko w historii. To osoba wymieniona z przejścia. Tylko NER ją wychwytuje.

Niestandardowe formaty: Dane kontaktowe mogą brzmieć „skontaktuj się ze mną pod adresem margaret kropka wells małpa gmail”. Proste narzędzia regex je pominą.

Terminy specyficzne dla badań: Ankiety kliniczne często zawierają identyfikatory szpitalne, kody ośrodków i nazwy miejsc. Mogą identyfikować osobę nawet wtedy, gdy wyglądają ogólnie.

Same dopasowanie wzorów nie wystarczy. Do prawdziwej anonimizacji ankiet potrzebne są narzędzia oparte na NLP. Zobacz Bezpieczeństwo i zgodność dla technicznych opcji.

Realne przykłady z trzech uczelni

Zespół badawczy z trzech europejskich uczelni przeprowadził badanie doświadczeń pacjentów. Zbiór danych miał 5000 respondentów, 3 stałe kolumny PII i 8 kolumn z otwartym tekstem. Plan zakładał udostępnienie pliku między ośrodkami na podstawie DSA i art. 89 RODO.

Tylko z usuwaniem kolumn:

  • Stałe kolumny PII: usunięte
  • Kolumny otwartego tekstu: pozostawione surowe
  • Twierdzenie: „Kolumny PII usunięte”
  • PII pozostawione: 47 nazwanych osób, 23 adresy e-mail w komentarzach, 18 nazw miejsc mogących identyfikować respondentów

Z wykrywaniem opartym na NLP:

  • Stałe kolumny PII: zastąpione spójnymi tokenami
  • Kolumny otwartego tekstu: 47 imion i nazwisk zastąpionych, 23 e-maile zamaskowane, 18 nazw miejsc uogólnionych („Szpital Kliniczny” → „[Instytucja Opieki Zdrowotnej]”)
  • Wynik: plik spełniający Motyw 26 RODO
  • Komisja etyczna zatwierdziła metodę
  • DPO potwierdził zgodność z DSA

Luka jest realna. Pierwsze wyjście wygląda na czyste. Drugie jest czyste.

Pięcioetapowy protokół przed udostępnieniem

Użyj tych kroków przed udostępnieniem dowolnego pliku ankiety lub wywiadu.

Krok 1: Oznacz każdą kolumnę Zaznacz każdą kolumnę jako stałą PII, stałą bez PII lub otwarty tekst. Zapisz to.

Krok 2: Obsłuż stałą PII Usuń wpisy niepotrzebne do analizy. Zastąp wpisy potrzebne do powiązania rekordów. Zapisz użyte kody.

Krok 3: Zeskanuj kolumny otwartego tekstu Uruchom wykrywanie NLP na wszystkich kolumnach otwartego tekstu. Przejrzyj każdy wynik. Potwierdź, które są prawdziwą PII.

Krok 4: Zastosuj zamienniki Zastąp potwierdzone dane PII w wynikach otwartego tekstu. Używaj wyraźnych etykiet, takich jak [OSOBA], [E-MAIL] lub [LOKALIZACJA].

Krok 5: Zweryfikuj i udokumentuj Wyrywkowo sprawdź 50–100 wierszy z wyników. Ręcznie sprawdź wpisy otwartego tekstu. Napisz krótkie podsumowanie: użyte narzędzia, znalezione typy encji, przetworzone kolumny. Udostępnij je wraz z plikiem do przeglądu etycznego.

To zamienia „usunęliśmy kolumnę z imionami” w jasny, udokumentowany proces. Spełnia art. 89 RODO i standardy anonimizacji, których wymaga większość komisji etycznych. Odwiedź nasze centrum dokumentacji dla powiązanych przewodników.

Źródła

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.