By · Last updated 2026-06-05

Zpět na blogGDPR a shoda

PII ve výzkumných publikacích: snímky obrazovky a GDPR

Akademické práce pravidelně obsahují pandas DataFramy a výstupy z R zobrazující skutečné záznamy pacientů jako příklady metodologie. Zde je vysvětlení, proč jde o porušení GDPR.

June 5, 20267 min čtení
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Problém snímků metodologie

Akademické a výzkumné publikace vyvinuly dokumentační vzor, který vytváří nedoceněné riziko v oblasti GDPR: snímky prostředí pro analýzu dat zobrazující reálná data jako součást demonstrace metodologie.

Tyto scénáře jsou běžné:

  • Článek o strojovém učení obsahuje snímek pandas DataFramu zobrazujícího prvních 10 řádků trénovací datové sady — která obsahuje skutečné záznamy pacientů ze zdroje dat
  • Článek o analýze klinických dat zobrazuje výstup R s hodnotami jednotlivých pacientů v souhrnné tabulce, přičemž ID pacientů jsou částečně viditelná
  • Článek z oblasti výpočetních sociálních věd obsahuje výstupní tabulky SPSS zobrazující hodnoty jednotlivých respondentů průzkumu jako součást vysvětlení analytického postupu
  • Výukový materiál pro datové inženýrství publikovaný ve výzkumném časopise obsahuje snímky Jupyter notebooku se skutečnými záznamy uživatelů použitými jako „vzorová data” pro ilustraci

V každém případě autor neměl v úmyslu zveřejnit osobní údaje. Snímek byl zahrnut za účelem dokumentace metodologie. Osobní údaje na snímku byly vedlejší — sloužily k tomu, aby byl příklad konkrétní.

Avšak „vedlejší” neznamená soulad s předpisy. Článek 4 odst. 1 GDPR definuje osobní údaje jako jakékoli informace vztahující se k identifikované nebo identifikovatelné fyzické osobě. Záznam pacienta v publikovaném článku — i jako snímek — je osobním údajem. Jeho zveřejnění bez souhlasu pacienta nebo jiného právního základu dle článku 6 je porušením GDPR.

Proč to vytváří konkrétní právní riziko

Výzkumné instituce se stále více setkávají s vymáháním GDPR za selhání při zveřejnění dat. Klíčový vývoj:

Žádosti o stažení časopisů: Právo na výmaz dle GDPR (článek 17) se vztahuje i na zveřejněná data. Pokud subjekt údajů objeví své osobní údaje v publikovaném článku, může požádat o výmaz — což pro časopisecký článek typicky znamená stažení nebo oznámení o opravě. Stažení článku je závažný profesní důsledek.

Zjištění etických komisí pro výzkum: Etické komise posuzující zveřejněný výzkum z hlediska souladu s GDPR začínají vydávat zjištění pro práce, které zahrnují data na úrovni jednotlivců ve snímcích bez odpovídajících záruk. Tato zjištění ovlivňují postavení výzkumníků u etických komisí pro budoucí výzkum.

Porušení dohod o přístupu k datům: Většina výzkumných datových sad je sdílena na základě smluv o přístupu k datům specifikujících, jak mohou být data použita a co může být publikováno. Zahrnutí dat na úrovni jednotlivců do publikačních snímků, i jako náhledy, může porušovat tuto smlouvu — s důsledky zahrnujícími ztrátu přístupu k datům.

Omezení výzkumné výjimky dle článku 89 GDPR: Článek 89 GDPR umožňuje zpracování osobních údajů pro vědecký výzkum se sníženými povinnostmi — ale pouze tam, kde jsou implementovány „odpovídající záruky.” Zveřejnění dat na úrovni jednotlivců ve snímcích metodologie bez anonymizace není odpovídající zárukou; je to zpřístupnění.

Rozsah problému

Výskyt není vzácný. Systematický přehled prací z oblasti datové vědy publikovaných v časopisech s vysokým impakt faktorem v letech 2022–2024 by pravděpodobně odhalil, že značná část obsahuje obrázky s viditelnými daty na úrovni jednotlivců.

Přispívající faktory:

Normy reprodukovatelnosti: Moderní vědecké publikování stále více vyžaduje, aby metody byly zdokumentovány s dostatečnými podrobnostmi pro reprodukci výsledků. Snímky analytických prostředí jsou považovány za splnění této normy.

Rychlost publikování: Pod tlakem termínů výzkumníci rychle vytvářejí snímky bez kontroly každého obrazu na obsah dat.

Nízká viditelnost dat v obrázcích: Snímek DataFramu s 20 sloupci a 5 řádky může mít jména a ID v okrajových sloupcích, na které se výzkumník nezaměří při dokumentaci analytického postupu.

Žádná automatická kontrola v pracovních postupech pro podávání: Standardní portály pro podávání časopisů provádějí kontroly úplnosti, formátu a plagiátorství. Žádný neprovádí detekci PII v obrazech.

Implementace kontroly pro výzkumné skupiny

Praktický postup pro výzkumnou skupinu implementující kontrolu PII v rukopisu:

Protokol před podáním:

  1. Výzkumník dokončí návrh rukopisu se všemi obrázky
  2. Návrh je předán k interní kontrole (vedoucí práce nebo určený kontrolor)
  3. Detekce PII v obrazech proběhne na všech obrázkových souborech přiložených k rukopisu
  4. Zpráva o detekci identifikuje: které obrázky obsahují čitelný text, který text odpovídá vzorům entit PII
  5. Výzkumník zkontroluje označené obrázky
  6. Pro každý označený obrázek: nahrazení správně anonymizovaným snímkem (nahrazení ID pacienta 12847 ID 00001, nahrazení skutečného jména výrazem „Pacient A”)
  7. Finální rukopis podán do časopisu s anonymizovanými snímky

Možnosti technické integrace:

  • Ruční: exportujte všechny obrázky rukopisu, spusťte dávkovou detekci PII v obrazech, zkontrolujte zprávu
  • Poloautomatická: vyhrazená složka, do které jsou ukládány návrhy rukopisů; týdenní dávkové zpracování nových souborů
  • Integrované do pracovního postupu: institucionální portál pro podávání s krokem pro kontrolu před podáním

Časové náklady na kontrolu jsou nízké: pro typický rukopis s 15 obrázky trvá detekce PII méně než 2 minuty. Časové náklady na stažení nebo zjištění etické komise se měří v měsících.

Případová studie: Požadavek etické komise pro výzkum evropské univerzity

Výzkumná skupina v oblasti datové vědy na evropské univerzitě implementovala kontrolu PII v obrazech jako součást svého pracovního postupu pro podávání rukopisů po téměř incidentu: recenze podaného článku odhalila jména jednotlivých pacientů ve snímku DataFramu, který byl zahrnut jako ilustrace metodologie.

Implementace:

  • Všechny návrhy článků procházejí kontrolou PII v obrazech před podáním do časopisů
  • Kontrola pokrývá všechny obrázky PNG, JPG a PDF v návrhu
  • Výsledky jsou přezkoumány jmenovaným kontaktním pracovníkem pro ochranu dat ve skupině

Výsledky za 6 měsíců:

  • 23 rukopisů zkontrolováno před podáním
  • 7 rukopisů (30 %) mělo alespoň jeden obrázek s detekovatelnými entitami PII
  • Nalezené typy entit: jména pacientů v DataFramech (4 práce), ID uživatelů odpovídající formátům registrace pacientů (2 práce), e-mailové adresy na okrajích snímků (1 práce)
  • Všech 7 opraveno před podáním
  • Nula žádostí o stažení nebo zjištění etické komise po podání v daném období

Etická komise pro výzkum instituce nyní používá tento postup jako zdokumentovaný příklad „odpovídajících záruk” v žádostech o výzkumnou výjimku dle článku 89 GDPR.

Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.