By · Last updated 2026-06-05

Späť na blogGDPR a Dodržiavanie

Osobne udaje vo výskume: screenshoty a GDPR

Akademické práce casto obsahujú DataFrame z Pandas a výstupy z R zobrazujúce skutocné záznamy pacientov ako príklady metodológie. Tu je vysvetlenie, preco ide o porušenie GDPR.

June 5, 20267 min čítania
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Aktualizovane pre rok 2026 — Presadzovanie GDPR voci výskumným skupinám vzrástlo. Toto riziko zostáva bežné v publikovaných prácach.

Problém so screenshotmi metodológie

Mnohé akademické práce obsahujú screenshoty analytických nástrojov. Cielom je ukázat metódu. Tieto screenshoty však môžu odhalovat skutocné osobné záznamy. Väcšina výskumníkov si toto riziko neuvedomuje.

Tu sú štyri bežné prípady:

  • Strojovo-ucebnicová práca zobrazuje DataFrame z Pandas. Prvých 10 riadkov obsahuje skutocné mená a ID pacientov.
  • Klinická štúdia zobrazuje výstup z R. Hodnoty pacientov sú na obrazovke. ID pacientov sa zobrazujú na okraji.
  • Spolocenskovedná práca zobrazuje tabuky SPSS. Odpovede na prieskum od skutocných ludí sú viditelné.
  • Tutoriál v casopise zobrazuje Jupyter notebook. Skutocné záznamy používatelov slúžia ako vzorové riadky.

V každom prípade autor chcel ukázat metódu. Osobné záznamy neboli cielem. Boli tam len preto, aby bol príklad realistický.

Ale "nie cielem" neznamená bezpecné. Clanok 4 ods. 1 GDPR hovorí, že osobné záznamy zahrnujú akékolvek fakty o identifikovanej osobe. Záznam pacienta v publikovanej práci je osobná informácia. Nezáleží na tom, ci je na screenshote. Jeho zverejnenie bez súhlasu alebo zákonného základu podla Clánku 6 porušuje GDPR.

Pozrite si prehlad súladu s GDPR pre viac informácií o pravidlách publikovania.

Preco to vytvára právne riziko

Výskumné skupiny celia caraz väcšiemu presadzovaniu GDPR. Chyby pri publikovaní sú klúcovým spúšnacom. Vynikajú štyri riziká.

Stiahnutie z casopisu. Clanok 17 dáva ludom právo na výmaz. To platí aj pre zverejnené záznamy. Ak osoba nájde svoje údaje v práci, môže požiadat o ich odstránenie. Pre casopis to casto znamená stiahnutie. Stiahnutie škodí kariére výskumníka.

Nálezy etickej komisie. Etické komisie kontrolujú publikované práce. Overujú súlad s GDPR. Zacali oznacovat práce zobrazujúce osobné záznamy na screenshotoch. Tieto oznacenia ovplyvnujú budúcu prácu výskumníka.

Porušenia dohody o prístupe k údajom. Výskumné datasety prichádzajú s dohodami o prístupe k údajom. Tieto pravidlá urcujú, co môže byt zverejnené. Screenshot s osobnými záznamami môže porušit dohodu. Výsledkom je casto strata prístupu k datasetu.

Obmedzenia Clánku 89. Clanok 89 umoznuje použitie osobných informácií pre vedu. Uvolnuje niektoré pravidlá. Ale iba tam, kde existujú primerané záruky. Zobrazovanie osobných záznamov na screenshote bez de-identifikácie nie je zárukou. Je to porušenie.

Pozrite si stránku ochrany a záruk pre úplný prehlad.

Ako casto k tomu dochádza?

Tento problém nie je zriedkavý. Dotýka sa publikovaných prác v mnohých oblastiach.

Hnacou silou je niekolko faktorov.

Normy reprodukovatelnosti. Casopisy chcú detaily o metóde. Výskumníci používajú screenshoty na splnenie tejto požiadavky. Nie vždy kontrolujú, co je viditelné na každom obrazku.

Tesné termíny. Casový tlak vedie k rýchlym screenshotom. Nie je cas skontrolovat každý obrazok, ci neobsahuje odhalené záznamy.

Nízka viditelnost v obrazkoch. DataFrame môže mat 20 stlpcov. Mená a ID môžu byt v stlpci daleko napravo. Výskumník sa pozrie na klúcový stlpec, nie na stlpec ID.

Žiadna kontrola pri odosielaní. Portály casopisov spúštajú kontroly formátu a skenovanie plagiarizmu. Žiadne z nich nekontrolujú obrazky na osobné entity. Nic neoznací problém pred zverejnením práce.

Postup skríningu pre výskumné skupiny

Proces skríningu pred odoslaním môže týmto problémom zabránit. Má sedem krokov.

  1. Výskumník dokoncí rukopis so všetkými obrázkami.
  2. Rukopis ide na interného kontrolora — PI alebo kontaktnú osobu pre ochranu súkromia.
  3. Detekcia osobných údajov v obrazkoch beží na všetkých obrazkových súboroch v rukopise.
  4. Správa oznacuje obrazky s cítatelným textom zodpovedajúcim vzorom osobných entít.
  5. Výskumník skontroluje oznacené obrazky.
  6. Pre každý oznacený obrazok: nahradte ho cistým screenshotom. Nahradte ID pacienta 12847 ID 00001. Nahradte skutocné mená slovom "Pacient A".
  7. Konecný rukopis ide do casopisu s cistými obrazkami.

Technické možnosti:

  • Manuálne: Exportujte obrazky rukopisu. Spustite dávkovú detekciu osobných údajov. Skontrolujte správu.
  • Poloautomatizované: Použite zdielaný prieinok pre koncepty. Spúštajte dávkové spracovanie každý týžden na nových súboroch.
  • Integrované do pracovného toku: Pridajte krok skríningu do portálu na odosielanie.

Skríning je rýchly. Pre rukopis s 15 obrázkami trvá detekcia osobných údajov v obrazkoch menej ako dve minúty. Stiahnutie trvá mesiace.

Navštívte FAQ alebo slovník pre viac informácií o funkciách detekcie.

Prípadová štúdia: Európska univerzita

Jedna výskumná skupina pridala skríning osobných údajov v obrazkoch do svojho rukopisného postupu. Ke zmene priviedol takmer-incident. Práca v recenznom konaní mala mená pacientov na screenshote DataFrame.

Co urobili:

  • Všetky konceptové práce boli spracované na detekciu osobných údajov v obrazkoch pred odoslaním do casopisu.
  • Skríning pokrýval všetky PNG, JPG a PDF obrázky v každom koncepte.
  • Kontaktná osoba pre ochranu súkromia skontrolovala výsledky.

Výsledky za šest mesiacov:

  • 23 skrínovaných rukopisov.
  • 7 rukopisov (30%) malo aspon jeden obrazok s osobnými entitami.
  • Nájdené typy: mená pacientov v DataFramoch (4 práce).
  • ID používatelov zodpovedajúce formátom pacientov (2 práce).
  • E-mailové adresy na okrajoch screenshotov (1 práca).
  • Všetkých 7 opravených pred odoslaním.
  • Nula žiadostí o stiahnutie alebo nálezov etickej komisie po odoslaní.

Etická komisia teraz cituje tento postup ako modelové "primerané opatrenie" podla Clánku 89. Podporuje budúce žiadosti skupiny o výnimku pre výskum.

Precítajte si vyhlásenie zakladatela, kde sa dozviete, preco bol anonym.legal vytvorený pre tento druh problému.

Zdroje

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.