Luka, którą omija usuwanie kolumn
Zaktualizowano w 2026 r.
Zbiory danych badawczych przemieszczają się między uczelniami jako pliki CSV. Gdy zespóły przygotowują CSV do udostępnienia, praca jest oparta na kolumnach. Znajdź dane osobowe. Usuń lub zastąp je.
Ta metoda działa dla stałych pól. Kolumna o nazwie „e-mail” zawiera adresy e-mail — usuń ją. Kolumna o nazwie „telefon” zawiera numery telefonów — usuń ją. Kolumna o nazwie „imię_uczestnika” zawiera imiona i nazwiska — zamień na kod.
Ale kolumny z odpowiedziami tekstowymi to martwy punkt. Usunięcie oznaczonych kolumn ich nie rusza.
Ankieta z 5000 wierszami może mieć pięć kolumn ustrukturyzowanych z danymi osobowymi i piętnaście kolumn z otwartymi odpowiedziami tekstowymi. Ustrukturyzowane zawierają imiona i nazwiska, e-maile, numery telefonów, identyfikatory i lata urodzenia. Otwarte tekstowe zawierają komentarze, uwagi i sugestie.
Kolumny ustrukturyzowane są czyszczone. Kolumny otwarte tekstowe pozostają surowe. Ale ludzie piszą takie rzeczy jak te trzy przykłady.
Pierwszy: „Mój lekarz w Szpitalu Klinicznym, dr Maria Santos, powiedziała, że leczenie jest nowe.” Drugi: „Zmagam się z tym od mojego wypadku w 2019 roku.” Trzeci: „Możesz skontaktować się z moim opiekunem pod adresem margaret.wells@gmail.com, aby uzyskać szczegóły.”
Każdy wpis wymienia prawdziwą osobę. Niektóre zawierają fakty zdrowotne lub informacje kontaktowe. żadne z nich nie pojawia się w nagłówku kolumny. żadne nie jest wykryte przez usuwanie kolumn.
Dlaczego to nie spełnia standardu RODO
Motyw 26 RODO definiuje anonimowe rekordy jako rekordy, których nie można powiązać z żadną osobą. Poprzeczka jest wysoko. Rekordy są naprawdę anonimowe tylko wtedy, gdy ponowna identyfikacja nie jest rozsądnie możliwa.
Plik CSV z czystymi stałymi kolumnami, ale wymienionymi osobami w otwartych tekstach, nie przechodzi tego testu. Te imiona i nazwiska są identyfikowalne. Zbiór danych nadal jest osobowy. Zasady art. 89 RODO nadal obowiązują. Stąd wynikają trzy ryzyka.
Wyjątek badawczy z art. 89: Art. 89 pozwala badaczom przetwarzać dane osobowe do celów naukowych z mniejszymi obowiązkami. Ale tylko tam, gdzie istnieją „odpowiednie zabezpieczenia”. Udostępnienie pliku z danymi osobowymi w otwartym tekście przy powoływaniu się na ochronę art. 89 to błąd prawny.
Zatwierdzenie etyczne: Większość IRB i komisji etycznych wymaga pełnej anonimizacji udostępnianych zbiorów danych. Częściowa praca — kolumny stałe wyczyszczone, otwarty tekst pozostawiony surowy — zazwyczaj nie przechodzi. Komisja może odrzucić wniosek.
Umowy o udostępnianie danych: DSA między instytucjami określają wymagany poziom anonimizacji. Częściowa praca, która nie spełnia Motywu 26 RODO, może naruszać DSA. Zobacz nasz przegląd zgodności prawnej.
Dlaczego otwarty tekst jest tak trudny do wyczyszczenia
Otwarte odpowiedzi na ankiety to jedne z najtrudniejszych celów PII. Oto dlaczego.
Imiona i nazwiska w kontekście: „Dr Maria Santos ze Szpitala Klinicznego” wymaga rozpoznawania nazwanych encji (NER) do oznaczenia osoby i organizacji. Listy słów kluczowych nie mogą tego znaleźć.
Imiona i nazwiska w historiach: „Samochód Jana Kowalskiego uderzył w mój” umieszcza prawdziwe imię i nazwisko w historii. To osoba wymieniona z przejścia. Tylko NER ją wychwytuje.
Niestandardowe formaty: Dane kontaktowe mogą brzmieć „skontaktuj się ze mną pod adresem margaret kropka wells małpa gmail”. Proste narzędzia regex je pominą.
Terminy specyficzne dla badań: Ankiety kliniczne często zawierają identyfikatory szpitalne, kody ośrodków i nazwy miejsc. Mogą identyfikować osobę nawet wtedy, gdy wyglądają ogólnie.
Same dopasowanie wzorów nie wystarczy. Do prawdziwej anonimizacji ankiet potrzebne są narzędzia oparte na NLP. Zobacz Bezpieczeństwo i zgodność dla technicznych opcji.
Realne przykłady z trzech uczelni
Zespół badawczy z trzech europejskich uczelni przeprowadził badanie doświadczeń pacjentów. Zbiór danych miał 5000 respondentów, 3 stałe kolumny PII i 8 kolumn z otwartym tekstem. Plan zakładał udostępnienie pliku między ośrodkami na podstawie DSA i art. 89 RODO.
Tylko z usuwaniem kolumn:
- Stałe kolumny PII: usunięte
- Kolumny otwartego tekstu: pozostawione surowe
- Twierdzenie: „Kolumny PII usunięte”
- PII pozostawione: 47 nazwanych osób, 23 adresy e-mail w komentarzach, 18 nazw miejsc mogących identyfikować respondentów
Z wykrywaniem opartym na NLP:
- Stałe kolumny PII: zastąpione spójnymi tokenami
- Kolumny otwartego tekstu: 47 imion i nazwisk zastąpionych, 23 e-maile zamaskowane, 18 nazw miejsc uogólnionych („Szpital Kliniczny” → „[Instytucja Opieki Zdrowotnej]”)
- Wynik: plik spełniający Motyw 26 RODO
- Komisja etyczna zatwierdziła metodę
- DPO potwierdził zgodność z DSA
Luka jest realna. Pierwsze wyjście wygląda na czyste. Drugie jest czyste.
Pięcioetapowy protokół przed udostępnieniem
Użyj tych kroków przed udostępnieniem dowolnego pliku ankiety lub wywiadu.
Krok 1: Oznacz każdą kolumnę Zaznacz każdą kolumnę jako stałą PII, stałą bez PII lub otwarty tekst. Zapisz to.
Krok 2: Obsłuż stałą PII Usuń wpisy niepotrzebne do analizy. Zastąp wpisy potrzebne do powiązania rekordów. Zapisz użyte kody.
Krok 3: Zeskanuj kolumny otwartego tekstu Uruchom wykrywanie NLP na wszystkich kolumnach otwartego tekstu. Przejrzyj każdy wynik. Potwierdź, które są prawdziwą PII.
Krok 4: Zastosuj zamienniki
Zastąp potwierdzone dane PII w wynikach otwartego tekstu. Używaj wyraźnych etykiet, takich jak [OSOBA], [E-MAIL] lub [LOKALIZACJA].
Krok 5: Zweryfikuj i udokumentuj Wyrywkowo sprawdź 50–100 wierszy z wyników. Ręcznie sprawdź wpisy otwartego tekstu. Napisz krótkie podsumowanie: użyte narzędzia, znalezione typy encji, przetworzone kolumny. Udostępnij je wraz z plikiem do przeglądu etycznego.
To zamienia „usunęliśmy kolumnę z imionami” w jasny, udokumentowany proces. Spełnia art. 89 RODO i standardy anonimizacji, których wymaga większość komisji etycznych. Odwiedź nasze centrum dokumentacji dla powiązanych przewodników.