방법론 스크린샷 문제
학술 및 연구 간행물은 실제 데이터를 방법론을 보여주기 위해 데이터 분석 환경의 스크린샷을 포함하는 문서 패턴을 개발했습니다.
시나리오는 일반적입니다:
- 기계 학습 논문은 pandas DataFrame의 처음 10행을 보여주는 스크린샷을 포함합니다 — 데이터 소스의 실제 환자 기록
- 임상 데이터 분석 논문은 R
summary()출력을 보여줍니다 — 실제 환자 ID, 실제 생년월일 포함 - 신경과학 연구는 실제 참여자 ID와 함께 시계열 데이터의 스크린샷을 포함합니다
이들은 논문 제출 전에 발견되지 않으면 GDPR 위반입니다.
GDPR 법적 근거
GDPR Recital 26의 익명화 정의:
"익명 데이터는 확인되거나 식별 가능한 자연인과 관련되지 않는 정보입니다."
간행물에 포함된 실제 환자 데이터 스크린샷은 식별 가능합니다. 출판된 데이터에서 개인을 재식별할 수 있으면, 출판물은 GDPR 규정 준수 신고 사항 없이 개인 데이터를 포함합니다.
간행물 전 방법론 스크린샷 스캔
저자 또는 편집자가 수행할 수 있는 예방 조치:
- 원고 이미지 추출: PDF 또는 제출 문서에서 모든 이미지 추출
- 이미지 OCR + PII 감지: 각 이미지에 PII 감지 실행
- 데이터 테이블 & 코드 블록 검토: 방법론 그림에서 실제 데이터 값 확인
- 보정: 실제 데이터를 합성된 예시 데이터로 교체하거나, 모든 식별자를 익명화하거나, 데이터 스크린샷을 완전히 제거
간단한 수정 규칙
게시 전 처리:
| 스크린샷 컨텐츠 | 수정 | 결과 |
|---|---|---|
| 실제 환자 ID + 실제 값 | 데이터 그림 제거 | 안전 |
| 실제 환자 ID + 합성 값 | ID를 시뮬레이션된 ID로 교체 | 안전 |
| 실제 값 + ID 제거 | 값을 보존, ID만 익명화 | 안전 |
| 코드 예 (매개변수 표시) | 실제 데이터를 표시하지 않음 | 안전 |
연구 윤리 위원회의 역할
대부분의 연구 윤리 위원회 또는 IRB는 간행물 전에 데이터 익명화 및 건강 데이터 침해를 검토할 책임이 있습니다. IRB 프로토콜에서 요청할 사항:
- 간행물 전에 원고가 검토됨
- 모든 식별 가능한 데이터가 제거되어야 함
- 스크린샷 & 그림의 PII 검사 포함
기술적 스캔
저널 또는 게시자가 온라인 제출 전에 수행할 수 있는 조치:
# 추출된 이미지에 PII 감지 실행
for image in extracted_images/*.png; do
python detect_pii.py $image
# 감지된 경우 "potential PII found" 플래그
done
이것은 편집자에게 추가 검토를 경고할 수 있습니다.
출처: