By · Last updated 2026-06-05

Bumalik sa BlogGDPR & Pagsunod

Research PII: Mga Screenshot at GDPR

Ang mga akademikong papel ay regular na nagsasama ng mga pandas DataFrame at R output na nagpapakita ng mga totoong rekord ng pasyente bilang mga halimbawa ng metodolohiya. Narito kung bakit ito isang paglabag sa GDPR.

June 5, 20267 min basahin
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Na-update para sa 2026 — Lumalaki ang pagpapatupad ng GDPR laban sa mga grupo ng pananaliksik. Karaniwan pa rin ang panganib na ito sa mga nailathala na gawa.

Ang Problema sa Screenshot ng Metodolohiya

Maraming akademikong papel ang nagsasama ng mga screenshot ng mga tool sa pagsusuri. Ang layunin ay ipakita ang pamamaraan. Ngunit ang mga screenshot na iyon ay maaaring magsiwalat ng mga totoong personal na rekord. Karamihan ng mga mananaliksik ay hindi napapansin ang panganib na ito.

Narito ang apat na karaniwang kaso:

  • Ang isang papel sa machine learning ay nagpapakita ng isang pandas DataFrame. Ang unang 10 hilera ay may mga totoong pangalan at ID ng pasyente.
  • Ang isang klinikal na pag-aaral ay nagpapakita ng R output. Ang mga halaga ng pasyente ay nasa screen. Ang mga ID ng pasyente ay makikita sa margin.
  • Ang isang papel sa agham panlipunan ay nagpapakita ng mga SPSS table. Ang mga tugon sa survey mula sa mga totoong tao ay nakikita.
  • Ang isang tutorial sa journal ay nagpapakita ng isang Jupyter notebook. Ang mga totoong rekord ng user ay nagsisilbing mga sample na hilera.

Sa bawat kaso, ang may-akda ay nagnanais na ipakita ang pamamaraan. Hindi ang punto ang mga personal na rekord. Nandoon lang sila para gawing totoong-totoong ang halimbawa.

Ngunit ang "hindi ang punto" ay hindi nangangahulugang ligtas. Sinasabi ng GDPR Article 4(1) na ang mga personal na rekord ay kinabibilangan ng anumang katotohanan tungkol sa isang natukoy na tao. Ang isang rekord ng pasyente sa isang nailathala na papel ay personal na impormasyon. Hindi mahalaga kung ito ay nasa screenshot. Ang paglalathala nito nang walang pahintulot o isang legal na batayan sa ilalim ng Article 6 ay lumalabag sa GDPR.

Tingnan ang GDPR conformance overview para sa higit pa sa mga patakaran ng publikasyon.

Nakikiharap na ngayon ang mga grupo ng pananaliksik sa mas maraming pagpapatupad ng GDPR. Ang mga kabiguan sa publikasyon ay isang pangunahing gatilyo. Apat na panganib ang namumukod-tangi.

Retraction ng journal. Binibigyan ng Article 17 ang mga tao ng karapatang burahin. Nalalapat ito sa mga nailathala na rekord din. Kung matuklasan ng isang tao ang kanilang mga detalye sa isang papel, maaari silang humiling ng pag-alis. Para sa isang journal, kadalasang nangangahulugang retraction ito. Nakakasakit ang retraction sa karera ng isang mananaliksik.

Mga natuklasan ng ethics board. Sinusuri ng mga ethics board ang mga nailathala na gawa. Tinutukoy nila ang pagkakatugma ng GDPR. Nagsimula na silang mag-flag ng mga papel na nagpapakita ng mga personal na rekord sa mga screenshot. Nakakaapekto ang mga flag na ito sa hinaharap na gawa ng mananaliksik.

Mga paglabag sa Data Access Agreement. Ang mga dataset ng pananaliksik ay may kasamang mga Data Access Agreement. Sinasabi ng mga panuntunang ito kung ano ang maaaring ilathala. Ang isang screenshot na may mga personal na rekord ay maaaring labagin ang kasunduan. Ang resulta ay kadalasang pagkawala ng access sa dataset.

Mga limitasyon ng Article 89. Nagbibigay-daan ang Article 89 sa paggamit ng personal na impormasyon para sa agham. Pinapaluwag nito ang ilang panuntunan. Ngunit tanging kung may mga wastong pangkaligtasan. Ang pagpapakita ng mga personal na rekord sa isang screenshot nang walang de-identification ay hindi pangkaligtasan. Ito ay isang paglabag.

Tingnan ang aming pahina ng proteksyon at pangkaligtasan para sa buong breakdown.

Gaano Kadalas Nagtatagal Ito?

Ang problemang ito ay hindi bihira. Nakakaapekto ito sa mga nailathala na gawa sa maraming larangan.

Ilang salik ang nagtutulak nito.

Mga pamantayan ng reproducibility. Nais ng mga journal ang mga detalye ng pamamaraan. Gumagamit ang mga mananaliksik ng mga screenshot para matugunan ang pangangailangang ito. Hindi lagi nilang sinusuri kung ano ang makikita sa bawat imahe.

Mahigpit na mga deadline. Ang presyon ng oras ay humahantong sa mabilis na mga screenshot. Walang oras para suriin ang bawat imahe para sa mga nakalantad na rekord.

Mababang visibility sa mga imahe. Ang isang DataFrame ay maaaring may 20 kolum. Ang mga pangalan at ID ay maaaring nasa isang kolum na malayo sa kanan. Tinitingnan ng mananaliksik ang pangunahing kolum, hindi ang kolum ng ID.

Walang pagsusuri sa pagsumite. Ang mga portal ng journal ay nagpapatakbo ng mga format check at plagiarism screen. Wala ang sumusuri sa mga imahe para sa mga personal na entity. Walang nag-flag ng problema bago mabuhay ang papel.

Workflow ng Screening para sa mga Grupo ng Pananaliksik

Makakatigil ang isang proseso ng screening bago magsumite sa mga isyung ito. Mayroon itong pitong hakbang.

  1. Tinapos ng mananaliksik ang draft ng manuskrito na may lahat ng figure.
  2. Pumupunta ang draft sa isang panloob na reviewer — ang PI o isang privacy contact.
  3. Ang image PII detection ay tumatakbo sa lahat ng image file sa manuskrito.
  4. Nifa-flag ng ulat ang mga imahe na may nababasang teksto na tumutugma sa mga pattern ng personal na entity.
  5. Sinusuri ng mananaliksik ang mga naka-flag na imahe.
  6. Para sa bawat naka-flag na imahe: palitan ito ng isang malinis na screenshot. Palitan ang patient ID 12847 ng ID 00001. Palitan ang mga totoong pangalan ng "Patient A."
  7. Ang panghuling manuskrito ay pumupunta sa journal na may malinis na mga imahe.

Mga teknikal na opsyon:

  • Manual: I-export ang mga imahe ng manuskrito. Patakbuhin ang batch PII detection. Suriin ang ulat.
  • Semi-automated: Gumamit ng shared folder para sa mga draft. Patakbuhin ang batch processing bawat linggo sa mga bagong file.
  • Workflow-integrated: Magdagdag ng hakbang sa screening sa submission portal.

Mabilis ang screening. Para sa isang manuskritong may 15 figure, ang image PII detection ay tumatagal ng wala pang dalawang minuto. Ang isang retraction ay tumatagal ng mga buwan.

Bisitahin ang FAQ o glossary para sa higit pa sa mga tampok ng detection.

Case Study: Isang Unibersidad sa Europa

Isang grupo ng pananaliksik ang nagdagdag ng image PII screening sa workflow ng kanilang manuskrito. Isang near-miss ang nag-trigger ng pagbabago. Ang isang papel na nasa ilalim ng pagsusuri ay may mga pangalan ng pasyente sa isang DataFrame screenshot.

Ginawa nila:

  • Ang lahat ng draft na papel ay pinroseso para sa image PII bago magsumite sa journal.
  • Sinasaklaw ng screening ang lahat ng PNG, JPG, at PDF figure sa bawat draft.
  • Sinuri ng isang privacy contact ang mga resulta.

Mga resulta sa loob ng anim na buwan:

  • 23 manuskrito ang na-screen.
  • 7 manuskrito (30%) ay may kahit isang imahe na may mga personal na entity.
  • Mga uri na natuklasan: mga pangalan ng pasyente sa mga DataFrame (4 na papel).
  • Mga user ID na tumutugma sa mga format ng pasyente (2 papel).
  • Mga email address sa mga margin ng screenshot (1 papel).
  • Lahat ng 7 ay naayos bago magsumite.
  • Zero na mga kahilingan sa retraction o natuklasan ng ethics pagkatapos magsumite.

Ang ethics board ngayon ay binabanggit ang workflow na ito bilang isang modelong "appropriate safeguard" sa ilalim ng Article 89. Sinusuportahan nito ang mga hinaharap na aplikasyon ng exemption sa pananaliksik ng grupo.

Basahin ang pahayag ng founder para malaman kung bakit itinayo ang anonym.legal para sa ganitong uri ng problema.

Mga Pinagkukunan

Handa nang protektahan ang iyong data?

Simulan ang anonymization ng PII gamit ang 285+ uri ng entidad sa 48 wika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.