By · Last updated 2026-06-05

Powrót do blogaGDPR i zgodność

Dane osobowe w badaniach naukowych: zrzuty ekranu i RODO

Artykuły naukowe regularnie zawierają DataFrame'y pandas i dane wyjściowe R pokazujące rzeczywiste rekordy pacjentów jako przykłady metodologiczne. Oto dlaczego stanowi to naruszenie RODO.

June 5, 20267 min czytania
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Zaktualizowano w 2026 r. — Egzekwowanie RODO wobec grup badawczych nasiliło się. To ryzyko nadal jest powszechne w publikowanych pracach.

Problem zrzutów ekranu w sekcjach metodologicznych

Wiele artykułów naukowych zawiera zrzuty ekranu narzędzi analitycznych. Celem jest pokazanie metody. Ale te zrzuty mogą ujawniać rzeczywiste rekordy osobowe. Większość badaczy nie dostrzega tego ryzyka.

Oto cztery typowe przypadki:

  • Artykuł o uczeniu maszynowym pokazuje DataFrame pandas. Pierwsze 10 wierszy zawiera prawdziwe imiona i nazwiska pacjentów oraz identyfikatory.
  • Badanie kliniczne pokazuje dane wyjściowe R. Wartości pacjentów są widoczne na ekranie. Identyfikatory pacjentów pojawiają się na marginesie.
  • Artykuł z nauk społecznych pokazuje tabele SPSS. Widoczne są odpowiedzi ankietowe prawdziwych osób.
  • Samouczek w czasopiśmie pokazuje notatnik Jupyter. Rzeczywiste rekordy użytkowników służą jako przykładowe wiersze.

W każdym przypadku autor zamierzał pokazać metodę. Rekordy osobowe nie były meritum. Były tam tylko po to, by przykład wydawał się bardziej realny.

Ale „niebędące meritum” nie oznacza „bezpieczne”. Art. 4 ust. 1 RODO stanowi, że dane osobowe obejmują wszelkie informacje o zidentyfikowanej osobie. Rekord pacjenta w opublikowanym artykule to dane osobowe. Nie ma znaczenia, że jest na zrzucie ekranu. Jego opublikowanie bez zgody lub podstawy prawnej z art. 6 narusza RODO.

Zapoznaj się z przeglądem zgodności z RODO, aby dowiedzieć się więcej o zasadach dotyczących publikacji.

Dlaczego stwarza to ryzyko prawne

Grupy badawcze spotykają się z coraz intensywniejszym egzekwowaniem RODO. Naruszenia przy publikacji są kluczowym czynnikiem wyzwalającym. Wyróżniają się cztery rodzaje ryzyka.

Wycofanie artykułu z czasopisma. Art. 17 przyznaje ludziom prawo do usunięcia danych. Dotyczy to również opublikowanych rekordów. Jeśli dana osoba znajdzie swoje dane w artykule, może zażądać ich usunięcia. W przypadku czasopisma oznacza to często wycofanie publikacji. Wycofanie artykułu szkodzi karierze badacza.

Ustalenia komisji etycznej. Komisje etyczne recenzują opublikowane prace. Sprawdzają zgodność z RODO. Zaczęły flagować artykuły pokazujące dane osobowe na zrzutach ekranu. Te oznaczenia wpływają na przyszłe prace badacza.

Naruszenia umów dostępu do danych. Zbiory danych badawczych są przekazywane wraz z umowami dostępu do danych. Reguły te określają, co może zostać opublikowane. Zrzut ekranu z danymi osobowymi może naruszyć umowę. Skutkiem jest zazwyczaj utrata dostępu do zbioru danych.

Ograniczenia art. 89. Art. 89 zezwala na wykorzystywanie danych osobowych do celów naukowych. Łagodzi część zasad. Ale tylko w przypadku istnienia właściwych zabezpieczeń. Pokazanie danych osobowych na zrzucie ekranu bez deidnetyfikacji nie jest zabezpieczeniem. Jest naruszeniem.

Zapoznaj się z naszą stroną dotyczącą ochrony i zabezpieczeń, by uzyskać pełny obraz.

Jak często to się zdarza?

Ten problem nie jest rzadki. Dotyczy opublikowanych prac z wielu dziedzin.

Kilka czynników go napędza.

Normy dotyczące odtwarzalności. Czasopisma wymagają szczegółów metodologicznych. Badacze używają zrzutów ekranu, by spełnić ten wymóg. Nie zawsze sprawdzają, co jest widoczne na każdym obrazie.

Napięte terminy. Presja czasu prowadzi do szybkich zrzutów ekranu. Nie ma czasu na przejrzenie każdego obrazu pod kątem ujawnionych rekordów.

Słaba widoczność w obrazach. DataFrame może mieć 20 kolumn. Imiona i identyfikatory mogą znajdować się w kolumnie daleko po prawej. Badacz patrzy na kluczową kolumnę, a nie na kolumnę z identyfikatorami.

Brak weryfikacji przy zgłoszeniu. Portale czasopism przeprowadzają kontrole formatowania i sprawdzają plagiat. Żaden nie sprawdza obrazów pod kątem encji osobowych. Nic nie sygnalizuje problemu przed opublikowaniem artykułu.

Proces weryfikacji dla grup badawczych

Proces weryfikacji przed zgłoszeniem może zapobiec takim problemom. Składa się z siedmiu kroków.

  1. Badacz kończy przygotowywanie manuskryptu ze wszystkimi ilustracjami.
  2. Wersja robocza trafia do wewnętrznego recenzenta — kierownika projektu lub osoby odpowiedzialnej za prywatność.
  3. Wykrywanie danych osobowych w obrazach uruchamiane jest dla wszystkich plików graficznych w manuskrypcie.
  4. Raport oznacza obrazy z czytelnym tekstem pasującym do wzorców encji osobowych.
  5. Badacz przegląda oznaczone obrazy.
  6. Dla każdego oznaczonego obrazu: zastąp go czystym zrzutem ekranu. Zamień ID pacjenta 12847 na ID 00001. Zastąp prawdziwe imiona i nazwiska określeniem „Pacjent A”.
  7. Gotowy manuskrypt trafia do czasopisma z czystymi obrazami.

Opcje techniczne:

  • Ręcznie: Eksportuj obrazy z manuskryptu. Uruchom wsadowe wykrywanie danych osobowych. Przejrzyj raport.
  • Półautomatycznie: Użyj wspólnego folderu dla wersji roboczych. Uruchamiaj wsadowe przetwarzanie co tydzień dla nowych plików.
  • Zintegrowane z przepływem pracy: Dodaj krok weryfikacji do portalu zgłoszeniowego.

Weryfikacja jest szybka. Dla manuskryptu z 15 ilustracjami wykrywanie danych osobowych w obrazach zajmuje mniej niż dwie minuty. Wycofanie artykułu trwa miesiące.

Odwiedź FAQ lub słownik, by dowiedzieć się więcej o funkcjach wykrywania.

Studium przypadku: europejski uniwersytet

Jedna grupa badawcza włączyła weryfikację danych osobowych w obrazach do swojego procesu przygotowywania manuskryptów. Zmianę wywołało prawie-przeoczenie. Artykuł będący w recenzji zawierał imiona i nazwiska pacjentów na zrzucie ekranu z DataFrame.

Co zrobili:

  • Wszystkie robocze artykuły były sprawdzane pod kątem danych osobowych w obrazach przed zgłoszeniem do czasopisma.
  • Weryfikacja obejmowała wszystkie pliki PNG, JPG i PDF w każdej wersji roboczej.
  • Osoba odpowiedzialna za prywatność przeglądała wyniki.

Wyniki po sześciu miesiącach:

  • Zweryfikowano 23 manuskrypty.
  • 7 manuskryptów (30%) zawierało co najmniej jeden obraz z encjami osobowymi.
  • Znalezione typy: imiona i nazwiska pacjentów w DataFrame'ach (4 artykuły).
  • Identyfikatory użytkowników pasujące do formatów pacjentów (2 artykuły).
  • Adresy e-mail na marginesach zrzutów ekranu (1 artykuł).
  • Wszystkie 7 poprawiono przed zgłoszeniem.
  • Zero wniosków o wycofanie artykułu ani ustaleń komisji etycznej po zgłoszeniu.

Komisja etyczna powołuje się teraz na ten przepływ pracy jako wzorcowe „odpowiednie zabezpieczenie” w rozumieniu art. 89. Wspiera on przyszłe wnioski grupy o zastosowanie wyłączenia badawczego.

Przeczytaj oświadczenie założyciela, by dowiedzieć się, dlaczego anonym.legal powstał właśnie dla takich problemów.

Źródła

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.