By · Last updated 2026-06-05

ブログに戻るGDPRおよびコンプライアンス

研究出版: PII データ分析 スクリーンショット

学術研究論文やホワイトペーパー出版時のスクリーンショット内PII検出・黒塗り。

June 5, 20267 分で読めます
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

2026年版に更新 — 研究機関に対するGDPRの執行が増加しています。このリスクは発表された研究に今も多く見られます。

方法論スクリーンショットの問題

多くの学術論文に分析ツールのスクリーンショットが含まれています。目的は手法を示すことです。しかし、そのスクリーンショットが実際の個人記録を露出させることがあります。ほとんどの研究者はこのリスクに気づいていません。

よく見られる4つのケースを示します。

  • 機械学習論文にpandasのDataFrameが表示されています。最初の10行に実際の患者名とIDが含まれています。
  • 臨床研究でRの出力が表示されています。患者の値が画面に表示されています。患者IDが余白に見えています。
  • 社会科学論文にSPSSのテーブルが表示されています。実際の回答者の回答が見えています。
  • 学術誌のチュートリアルにJupyter Notebookが表示されています。実際のユーザー記録がサンプル行として使われています。

いずれの場合も、著者は手法を示すことが目的でした。個人記録は主役ではありませんでした。例を具体的に見せるためだけにそこにあったのです。

しかし、「主役でない」ことは「安全」を意味しません。GDPR第4条(1)は、個人情報とは識別された、または識別可能な人物に関するあらゆる情報を含むと定めています。発表された論文中の患者記録は個人情報です。スクリーンショットに含まれていても同様です。第6条に基づく同意や法的根拠なしに公表することはGDPR違反となります。

公表義務の詳細については、GDPRコンプライアンス概要をご覧ください。

なぜ法的リスクが生じるのか

研究機関はGDPRの執行強化に直面しています。公表の失敗はよくある引き金です。4つのリスクが際立っています。

学術誌の撤回。 第17条は人々に消去を求める権利を与えています。これは公表された情報にも適用されます。ある人が論文に自分のデータを見つけた場合、削除を求めることができます。学術誌の場合、通常は撤回または訂正通知を意味します。撤回は研究者のキャリアに傷をつけます。

倫理委員会の調査結果。 倫理委員会は公表された研究を審査します。GDPRへの準拠を確認します。委員会はスクリーンショットに個人記録を含む論文を問題視し始めています。この調査結果は研究者の今後の研究活動に影響します。

データアクセス契約違反。 研究データセットにはデータアクセス契約が付いています。この規則は公表できる内容を定めています。個人記録を含むスクリーンショットは契約に違反する可能性があります。結果としてデータへのアクセスを失うことが多いです。

第89条の制限。 第89条は科学研究のための個人情報の使用を認めています。一部の義務を緩和しています。しかし、適切な保護措置がある場合に限られます。個人記録を匿名化せずにスクリーンショットに表示することは保護措置ではありません。それは情報漏洩です。

詳細な分析については、保護と安全対策のページをご覧ください。

どのくらいの頻度で起きているのか

この問題は珍しくありません。多くの分野の発表研究に影響しています。

いくつかの要因がそれを引き起こしています。

再現性の規範。 学術誌は手法の詳細を求めています。研究者はこの要件に応えるためにスクリーンショットを使用します。各画像に何が見えているかを常に確認するわけではありません。

タイトなデッドライン。 時間的プレッシャーにより素早くスクリーンショットを撮ります。各画像で露出した記録を確認する時間がありません。

画像内の低い視認性。 DataFrameには20列が含まれることがあります。名前とIDが右端の列にある場合があります。研究者は分析列を見ており、ID列は見ていません。

提出時の確認がない。 学術誌のポータルはフォーマット確認と盗用チェックを実施しています。個人エンティティを含む画像の確認は行っていません。公開前に問題を発見するものがありません。

研究グループのためのスクリーニングワークフロー

提出前のスクリーニングプロセスでこれらの問題を防ぐことができます。7つのステップがあります。

  1. 研究者がすべての図を含む原稿草案を完成させる。
  2. 草案を内部審査者(PIまたはプライバシー担当者)に提出する。
  3. 原稿のすべての画像ファイルに対して画像PII検出を実行する。
  4. レポートが個人エンティティパターンに一致する読み取り可能なテキストを含む画像にフラグを立てる。
  5. 研究者がフラグされた画像を確認する。
  6. フラグされた各画像について: クリーンなスクリーンショットに置き換える。患者ID 12847をID 00001に替える。実際の名前を「患者A」に替える。
  7. 最終原稿をクリーンな画像とともに学術誌に提出する。

技術的オプション:

  • 手動: 原稿画像をエクスポートする。バッチPII検出を実行する。レポートを確認する。
  • 半自動: 草案用の共有フォルダを使用する。毎週新しいファイルのバッチ処理を実行する。
  • ワークフロー統合: 提出ポータルにスクリーニングステップを追加する。

スクリーニングは速いです。15図の原稿では、画像PII検出は2分未満で完了します。撤回には数ヶ月かかります。

検出機能の詳細については、よくある質問または用語集をご覧ください。

ケーススタディ: ヨーロッパの大学

ある研究グループが原稿ワークフローに画像PIIスクリーニングを追加しました。ニアミスが変化のきっかけとなりました。審査中の論文で、手法を示すために使われたDataFrameのスクリーンショットに患者名が含まれていました。

実施内容:

  • すべての論文草案が学術誌への提出前に画像PIIを確認されました。
  • スクリーニングは各草案のすべてのPNG、JPG、PDF図を対象としていました。
  • プライバシー担当者が結果を確認しました。

6ヶ月間の結果:

  • 23件の原稿をスクリーニング。
  • 7件の原稿 (30%) に個人エンティティを含む画像が少なくとも1枚ありました。
  • 発見されたタイプ: DataFrameの患者名 (4論文)。
  • 患者登録形式に一致するユーザーID (2論文)。
  • スクリーンショットの余白にメールアドレス (1論文)。
  • 7件すべてが提出前に修正されました。
  • 提出後に撤回要請や倫理委員会の調査結果はゼロでした。

倫理委員会はこのワークフローを第89条に基づく「適切な保護措置」の模範例として引用しています。グループの今後の研究免除申請を支援しています。

この種の問題のためにanonym.legalが作られた理由は、創設者の声明をご覧ください。

出典

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.