Vấn Đề Ảnh Chụp Màn Hình Phương Pháp Luận
Các ấn phẩm học thuật và nghiên cứu đã phát triển một mẫu tài liệu tạo ra rủi ro GDPR bị đánh giá thấp: ảnh chụp màn hình của môi trường phân tích dữ liệu hiển thị dữ liệu thực tế như một phần của việc chứng minh phương pháp luận.
Các tình huống rất phổ biến:
- Một bài báo học máy bao gồm ảnh chụp màn hình của DataFrame pandas hiển thị 10 hàng đầu tiên của tập dữ liệu đào tạo — chứa hồ sơ bệnh nhân thực tế từ nguồn dữ liệu
- Một bài báo phân tích dữ liệu lâm sàng hiển thị đầu ra R với giá trị bệnh nhân cá nhân trong bảng tóm tắt, với ID bệnh nhân hiển thị một phần
- Một bài báo khoa học xã hội tính toán bao gồm các bảng đầu ra SPSS hiển thị giá trị người trả lời khảo sát cá nhân như một phần của việc giải thích quy trình phân tích
- Một hướng dẫn kỹ thuật dữ liệu được xuất bản trong tạp chí nghiên cứu bao gồm ảnh chụp màn hình Jupyter notebook với hồ sơ người dùng thực tế được sử dụng làm "dữ liệu mẫu" cho minh họa
Trong mỗi trường hợp, tác giả không có ý định xuất bản dữ liệu cá nhân. Ảnh chụp màn hình được đưa vào để ghi lại phương pháp luận. Dữ liệu cá nhân trong ảnh chụp màn hình là ngẫu nhiên — ở đó để làm cho ví dụ cụ thể hơn.
Nhưng "ngẫu nhiên" không làm cho nó tuân thủ. Điều 4(1) GDPR định nghĩa dữ liệu cá nhân là bất kỳ thông tin nào liên quan đến một cá nhân đã được xác định hoặc có thể nhận dạng. Hồ sơ bệnh nhân trong một bài báo đã xuất bản — ngay cả dưới dạng ảnh chụp màn hình — là dữ liệu cá nhân. Xuất bản nó mà không có sự đồng ý của bệnh nhân hoặc cơ sở pháp lý khác theo Điều 6 là vi phạm GDPR.
Tại Sao Điều Này Tạo Ra Rủi Ro Pháp Lý Cụ Thể
Các tổ chức nghiên cứu ngày càng phải đối mặt với thực thi GDPR vì các lỗi xuất bản dữ liệu. Các phát triển chính:
Yêu cầu rút lại tạp chí: Quyền xóa theo GDPR (Điều 17) mở rộng đến dữ liệu đã xuất bản. Nếu một chủ thể dữ liệu phát hiện dữ liệu cá nhân của họ trong một bài báo đã xuất bản, họ có thể yêu cầu xóa — đối với một bài báo tạp chí thường có nghĩa là rút lại hoặc thông báo sửa đổi. Rút lại tạp chí là hậu quả nghề nghiệp đáng kể.
Phát hiện của hội đồng đạo đức nghiên cứu: Các ủy ban đạo đức nghiên cứu xem xét nghiên cứu đã xuất bản về tuân thủ GDPR đã bắt đầu đưa ra các phát hiện cho các bài báo bao gồm dữ liệu cấp cá nhân trong ảnh chụp màn hình mà không có biện pháp bảo vệ phù hợp. Những phát hiện này ảnh hưởng đến vị thế của các nhà nghiên cứu với các hội đồng đạo đức cho nghiên cứu trong tương lai.
Vi phạm Thỏa Thuận Truy Cập Dữ Liệu: Hầu hết các bộ dữ liệu nghiên cứu được chia sẻ theo Thỏa Thuận Truy Cập Dữ Liệu chỉ định cách dữ liệu có thể được sử dụng và những gì có thể được xuất bản. Bao gồm dữ liệu cấp cá nhân trong ảnh chụp màn hình xuất bản, ngay cả dưới dạng hình thu nhỏ, có thể vi phạm DAA — với hậu quả bao gồm mất đặc quyền truy cập dữ liệu.
Giới hạn miễn trừ nghiên cứu Điều 89 GDPR: Điều 89 GDPR cho phép xử lý dữ liệu cá nhân cho nghiên cứu khoa học với nghĩa vụ giảm — nhưng chỉ khi "các biện pháp bảo vệ phù hợp" được thực hiện. Xuất bản dữ liệu cấp cá nhân trong ảnh chụp màn hình phương pháp luận mà không có ẩn danh hóa không phải là biện pháp bảo vệ phù hợp; đó là tiết lộ.
Quy Mô Của Vấn Đề
Tỷ lệ mắc không phải là hiếm. Một đánh giá hệ thống các bài báo khoa học dữ liệu được xuất bản trong các tạp chí có tác động cao giữa 2022-2024 có thể sẽ tìm thấy một tỷ lệ đáng kể chứa hình ảnh có dữ liệu cấp cá nhân hiển thị.
Các yếu tố đóng góp:
Chuẩn mực tái sản xuất: Xuất bản khoa học hiện đại ngày càng yêu cầu phương pháp được ghi lại với đủ chi tiết để tái sản xuất kết quả. Ảnh chụp màn hình của môi trường phân tích được coi là đáp ứng chuẩn mực này.
Tốc độ xuất bản: Dưới áp lực thời hạn, các nhà nghiên cứu tạo ảnh chụp màn hình nhanh chóng mà không xem xét từng hình ảnh về nội dung dữ liệu.
Tầm nhìn thấp của dữ liệu trong hình ảnh: Một ảnh chụp màn hình của DataFrame với 20 cột và 5 hàng có thể có tên và ID trong các cột ngoại vi mà nhà nghiên cứu không tập trung vào khi ghi lại quy trình phân tích.
Không có kiểm tra tự động trong quy trình gửi bài: Các cổng nộp bài tạp chí tiêu chuẩn thực hiện kiểm tra tính đầy đủ, kiểm tra định dạng và sàng lọc đạo văn. Không ai thực hiện phát hiện PII hình ảnh.
Triển Khai Sàng Lọc Cho Nhóm Nghiên Cứu
Quy trình thực tế cho một nhóm nghiên cứu triển khai sàng lọc PII bản thảo:
Giao thức trước khi gửi:
- Nhà nghiên cứu hoàn thành bản thảo với tất cả các hình
- Bản thảo được gửi để sàng lọc nội bộ (PI hoặc người xem xét được chỉ định)
- Phát hiện PII hình ảnh chạy trên tất cả các tệp hình ảnh đính kèm với bản thảo
- Báo cáo phát hiện xác định: hình ảnh nào chứa văn bản có thể đọc được, văn bản nào khớp với các mẫu thực thể PII
- Nhà nghiên cứu xem xét các hình ảnh được đánh dấu
- Đối với mỗi hình ảnh được đánh dấu: thay thế bằng ảnh chụp màn hình được ẩn danh hóa đúng cách (thay thế ID bệnh nhân 12847 bằng ID 00001, thay thế tên thực bằng "Bệnh nhân A")
- Bản thảo cuối cùng gửi đến tạp chí với ảnh chụp màn hình được ẩn danh hóa
Tùy chọn tích hợp kỹ thuật:
- Thủ công: xuất tất cả hình ảnh bản thảo, chạy phát hiện PII hình ảnh hàng loạt, xem xét báo cáo
- Bán tự động: thư mục chuyên dụng nơi bản thảo nháp được đặt; xử lý hàng loạt hàng tuần chạy trên các tệp mới
- Tích hợp quy trình làm việc: cổng nộp bài của tổ chức với bước sàng lọc trước khi nộp bài
Chi phí thời gian của sàng lọc là thấp: đối với một bản thảo điển hình gồm 15 hình, phát hiện PII hình ảnh mất dưới 2 phút. Chi phí thời gian của việc rút lại hoặc phát hiện của hội đồng đạo đức được đo bằng tháng.
Trường Hợp Sử Dụng: Yêu Cầu Đạo Đức Nghiên Cứu Của Đại Học Châu Âu
Một nhóm nghiên cứu khoa học dữ liệu tại một trường đại học châu Âu đã triển khai sàng lọc PII hình ảnh như một phần của quy trình gửi bản thảo sau một sự cố gần: một bài báo đã gửi được phát hiện tên bệnh nhân cá nhân trong ảnh chụp màn hình DataFrame đã được đưa vào làm minh họa phương pháp luận trong quá trình xem xét.
Triển khai:
- Tất cả bản thảo nháp được xử lý về PII hình ảnh trước khi gửi đến tạp chí
- Sàng lọc bao gồm tất cả hình PNG, JPG và PDF trong bản thảo
- Kết quả được xem xét bởi người liên hệ bảo mật dữ liệu được chỉ định của nhóm
Kết quả trong 6 tháng:
- 23 bản thảo được sàng lọc trước khi gửi
- 7 bản thảo (30%) có ít nhất một hình ảnh với các thực thể PII có thể phát hiện được
- Các loại thực thể được tìm thấy: tên bệnh nhân trong DataFrames (4 bài báo), ID người dùng khớp với định dạng đăng ký bệnh nhân (2 bài báo), địa chỉ email ở lề ảnh chụp màn hình (1 bài báo)
- Tất cả 7 được sửa trước khi gửi
- Không có yêu cầu rút lại sau khi gửi hoặc phát hiện đạo đức trong giai đoạn này
Ủy ban đạo đức nghiên cứu của tổ chức hiện sử dụng quy trình này như một ví dụ được ghi lại về "các biện pháp bảo vệ phù hợp" trong các ứng dụng miễn trừ nghiên cứu Điều 89 GDPR.
Nguồn: