By · Last updated 2026-06-05

Quay lại BlogGDPR & Tuân Thủ

PII Trong Nghiên Cứu: Ảnh Chụp Màn Hình và GDPR

Các bài báo học thuật thường bao gồm DataFrames của pandas và đầu ra R hiển thị hồ sơ bệnh nhân thực tế như các ví dụ phương pháp luận. Đây là lý do tại sao đây là vi phạm GDPR.

June 5, 20267 phút đọc
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

Vấn Đề Ảnh Chụp Màn Hình Phương Pháp Luận

Các ấn phẩm học thuật và nghiên cứu đã phát triển một mẫu tài liệu tạo ra rủi ro GDPR bị đánh giá thấp: ảnh chụp màn hình của môi trường phân tích dữ liệu hiển thị dữ liệu thực tế như một phần của việc chứng minh phương pháp luận.

Các tình huống rất phổ biến:

  • Một bài báo học máy bao gồm ảnh chụp màn hình của DataFrame pandas hiển thị 10 hàng đầu tiên của tập dữ liệu đào tạo — chứa hồ sơ bệnh nhân thực tế từ nguồn dữ liệu
  • Một bài báo phân tích dữ liệu lâm sàng hiển thị đầu ra R với giá trị bệnh nhân cá nhân trong bảng tóm tắt, với ID bệnh nhân hiển thị một phần
  • Một bài báo khoa học xã hội tính toán bao gồm các bảng đầu ra SPSS hiển thị giá trị người trả lời khảo sát cá nhân như một phần của việc giải thích quy trình phân tích
  • Một hướng dẫn kỹ thuật dữ liệu được xuất bản trong tạp chí nghiên cứu bao gồm ảnh chụp màn hình Jupyter notebook với hồ sơ người dùng thực tế được sử dụng làm "dữ liệu mẫu" cho minh họa

Trong mỗi trường hợp, tác giả không có ý định xuất bản dữ liệu cá nhân. Ảnh chụp màn hình được đưa vào để ghi lại phương pháp luận. Dữ liệu cá nhân trong ảnh chụp màn hình là ngẫu nhiên — ở đó để làm cho ví dụ cụ thể hơn.

Nhưng "ngẫu nhiên" không làm cho nó tuân thủ. Điều 4(1) GDPR định nghĩa dữ liệu cá nhân là bất kỳ thông tin nào liên quan đến một cá nhân đã được xác định hoặc có thể nhận dạng. Hồ sơ bệnh nhân trong một bài báo đã xuất bản — ngay cả dưới dạng ảnh chụp màn hình — là dữ liệu cá nhân. Xuất bản nó mà không có sự đồng ý của bệnh nhân hoặc cơ sở pháp lý khác theo Điều 6 là vi phạm GDPR.

Tại Sao Điều Này Tạo Ra Rủi Ro Pháp Lý Cụ Thể

Các tổ chức nghiên cứu ngày càng phải đối mặt với thực thi GDPR vì các lỗi xuất bản dữ liệu. Các phát triển chính:

Yêu cầu rút lại tạp chí: Quyền xóa theo GDPR (Điều 17) mở rộng đến dữ liệu đã xuất bản. Nếu một chủ thể dữ liệu phát hiện dữ liệu cá nhân của họ trong một bài báo đã xuất bản, họ có thể yêu cầu xóa — đối với một bài báo tạp chí thường có nghĩa là rút lại hoặc thông báo sửa đổi. Rút lại tạp chí là hậu quả nghề nghiệp đáng kể.

Phát hiện của hội đồng đạo đức nghiên cứu: Các ủy ban đạo đức nghiên cứu xem xét nghiên cứu đã xuất bản về tuân thủ GDPR đã bắt đầu đưa ra các phát hiện cho các bài báo bao gồm dữ liệu cấp cá nhân trong ảnh chụp màn hình mà không có biện pháp bảo vệ phù hợp. Những phát hiện này ảnh hưởng đến vị thế của các nhà nghiên cứu với các hội đồng đạo đức cho nghiên cứu trong tương lai.

Vi phạm Thỏa Thuận Truy Cập Dữ Liệu: Hầu hết các bộ dữ liệu nghiên cứu được chia sẻ theo Thỏa Thuận Truy Cập Dữ Liệu chỉ định cách dữ liệu có thể được sử dụng và những gì có thể được xuất bản. Bao gồm dữ liệu cấp cá nhân trong ảnh chụp màn hình xuất bản, ngay cả dưới dạng hình thu nhỏ, có thể vi phạm DAA — với hậu quả bao gồm mất đặc quyền truy cập dữ liệu.

Giới hạn miễn trừ nghiên cứu Điều 89 GDPR: Điều 89 GDPR cho phép xử lý dữ liệu cá nhân cho nghiên cứu khoa học với nghĩa vụ giảm — nhưng chỉ khi "các biện pháp bảo vệ phù hợp" được thực hiện. Xuất bản dữ liệu cấp cá nhân trong ảnh chụp màn hình phương pháp luận mà không có ẩn danh hóa không phải là biện pháp bảo vệ phù hợp; đó là tiết lộ.

Quy Mô Của Vấn Đề

Tỷ lệ mắc không phải là hiếm. Một đánh giá hệ thống các bài báo khoa học dữ liệu được xuất bản trong các tạp chí có tác động cao giữa 2022-2024 có thể sẽ tìm thấy một tỷ lệ đáng kể chứa hình ảnh có dữ liệu cấp cá nhân hiển thị.

Các yếu tố đóng góp:

Chuẩn mực tái sản xuất: Xuất bản khoa học hiện đại ngày càng yêu cầu phương pháp được ghi lại với đủ chi tiết để tái sản xuất kết quả. Ảnh chụp màn hình của môi trường phân tích được coi là đáp ứng chuẩn mực này.

Tốc độ xuất bản: Dưới áp lực thời hạn, các nhà nghiên cứu tạo ảnh chụp màn hình nhanh chóng mà không xem xét từng hình ảnh về nội dung dữ liệu.

Tầm nhìn thấp của dữ liệu trong hình ảnh: Một ảnh chụp màn hình của DataFrame với 20 cột và 5 hàng có thể có tên và ID trong các cột ngoại vi mà nhà nghiên cứu không tập trung vào khi ghi lại quy trình phân tích.

Không có kiểm tra tự động trong quy trình gửi bài: Các cổng nộp bài tạp chí tiêu chuẩn thực hiện kiểm tra tính đầy đủ, kiểm tra định dạng và sàng lọc đạo văn. Không ai thực hiện phát hiện PII hình ảnh.

Triển Khai Sàng Lọc Cho Nhóm Nghiên Cứu

Quy trình thực tế cho một nhóm nghiên cứu triển khai sàng lọc PII bản thảo:

Giao thức trước khi gửi:

  1. Nhà nghiên cứu hoàn thành bản thảo với tất cả các hình
  2. Bản thảo được gửi để sàng lọc nội bộ (PI hoặc người xem xét được chỉ định)
  3. Phát hiện PII hình ảnh chạy trên tất cả các tệp hình ảnh đính kèm với bản thảo
  4. Báo cáo phát hiện xác định: hình ảnh nào chứa văn bản có thể đọc được, văn bản nào khớp với các mẫu thực thể PII
  5. Nhà nghiên cứu xem xét các hình ảnh được đánh dấu
  6. Đối với mỗi hình ảnh được đánh dấu: thay thế bằng ảnh chụp màn hình được ẩn danh hóa đúng cách (thay thế ID bệnh nhân 12847 bằng ID 00001, thay thế tên thực bằng "Bệnh nhân A")
  7. Bản thảo cuối cùng gửi đến tạp chí với ảnh chụp màn hình được ẩn danh hóa

Tùy chọn tích hợp kỹ thuật:

  • Thủ công: xuất tất cả hình ảnh bản thảo, chạy phát hiện PII hình ảnh hàng loạt, xem xét báo cáo
  • Bán tự động: thư mục chuyên dụng nơi bản thảo nháp được đặt; xử lý hàng loạt hàng tuần chạy trên các tệp mới
  • Tích hợp quy trình làm việc: cổng nộp bài của tổ chức với bước sàng lọc trước khi nộp bài

Chi phí thời gian của sàng lọc là thấp: đối với một bản thảo điển hình gồm 15 hình, phát hiện PII hình ảnh mất dưới 2 phút. Chi phí thời gian của việc rút lại hoặc phát hiện của hội đồng đạo đức được đo bằng tháng.

Trường Hợp Sử Dụng: Yêu Cầu Đạo Đức Nghiên Cứu Của Đại Học Châu Âu

Một nhóm nghiên cứu khoa học dữ liệu tại một trường đại học châu Âu đã triển khai sàng lọc PII hình ảnh như một phần của quy trình gửi bản thảo sau một sự cố gần: một bài báo đã gửi được phát hiện tên bệnh nhân cá nhân trong ảnh chụp màn hình DataFrame đã được đưa vào làm minh họa phương pháp luận trong quá trình xem xét.

Triển khai:

  • Tất cả bản thảo nháp được xử lý về PII hình ảnh trước khi gửi đến tạp chí
  • Sàng lọc bao gồm tất cả hình PNG, JPG và PDF trong bản thảo
  • Kết quả được xem xét bởi người liên hệ bảo mật dữ liệu được chỉ định của nhóm

Kết quả trong 6 tháng:

  • 23 bản thảo được sàng lọc trước khi gửi
  • 7 bản thảo (30%) có ít nhất một hình ảnh với các thực thể PII có thể phát hiện được
  • Các loại thực thể được tìm thấy: tên bệnh nhân trong DataFrames (4 bài báo), ID người dùng khớp với định dạng đăng ký bệnh nhân (2 bài báo), địa chỉ email ở lề ảnh chụp màn hình (1 bài báo)
  • Tất cả 7 được sửa trước khi gửi
  • Không có yêu cầu rút lại sau khi gửi hoặc phát hiện đạo đức trong giai đoạn này

Ủy ban đạo đức nghiên cứu của tổ chức hiện sử dụng quy trình này như một ví dụ được ghi lại về "các biện pháp bảo vệ phù hợp" trong các ứng dụng miễn trừ nghiên cứu Điều 89 GDPR.

Nguồn:

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.