블로그로 돌아가기GDPR 및 준수

연구 간행물 PII: 데이터 분석 스크린샷이 GDPR을 위반하고 있을 수 있는 이유

학술 논문은 정기적으로 실제 환자 기록을 보여주는 pandas DataFrame 및 R 출력을 포함합니다. 이것이 GDPR 위반이고 제출 전에 원고를 선별하는 방법을 알아봅시다.

April 21, 20267 분 읽기
research dataacademic GDPRpublication privacyOCR image detectionArticle 89

방법론 스크린샷 문제

학술 및 연구 간행물은 실제 데이터를 방법론을 보여주기 위해 데이터 분석 환경의 스크린샷을 포함하는 문서 패턴을 개발했습니다.

시나리오는 일반적입니다:

  • 기계 학습 논문은 pandas DataFrame의 처음 10행을 보여주는 스크린샷을 포함합니다 — 데이터 소스의 실제 환자 기록
  • 임상 데이터 분석 논문은 R summary() 출력을 보여줍니다 — 실제 환자 ID, 실제 생년월일 포함
  • 신경과학 연구는 실제 참여자 ID와 함께 시계열 데이터의 스크린샷을 포함합니다

이들은 논문 제출 전에 발견되지 않으면 GDPR 위반입니다.

GDPR 법적 근거

GDPR Recital 26의 익명화 정의:

"익명 데이터는 확인되거나 식별 가능한 자연인과 관련되지 않는 정보입니다."

간행물에 포함된 실제 환자 데이터 스크린샷은 식별 가능합니다. 출판된 데이터에서 개인을 재식별할 수 있으면, 출판물은 GDPR 규정 준수 신고 사항 없이 개인 데이터를 포함합니다.

간행물 전 방법론 스크린샷 스캔

저자 또는 편집자가 수행할 수 있는 예방 조치:

  1. 원고 이미지 추출: PDF 또는 제출 문서에서 모든 이미지 추출
  2. 이미지 OCR + PII 감지: 각 이미지에 PII 감지 실행
  3. 데이터 테이블 & 코드 블록 검토: 방법론 그림에서 실제 데이터 값 확인
  4. 보정: 실제 데이터를 합성된 예시 데이터로 교체하거나, 모든 식별자를 익명화하거나, 데이터 스크린샷을 완전히 제거

간단한 수정 규칙

게시 전 처리:

스크린샷 컨텐츠수정결과
실제 환자 ID + 실제 값데이터 그림 제거안전
실제 환자 ID + 합성 값ID를 시뮬레이션된 ID로 교체안전
실제 값 + ID 제거값을 보존, ID만 익명화안전
코드 예 (매개변수 표시)실제 데이터를 표시하지 않음안전

연구 윤리 위원회의 역할

대부분의 연구 윤리 위원회 또는 IRB는 간행물 전에 데이터 익명화 및 건강 데이터 침해를 검토할 책임이 있습니다. IRB 프로토콜에서 요청할 사항:

  • 간행물 전에 원고가 검토됨
  • 모든 식별 가능한 데이터가 제거되어야 함
  • 스크린샷 & 그림의 PII 검사 포함

기술적 스캔

저널 또는 게시자가 온라인 제출 전에 수행할 수 있는 조치:

# 추출된 이미지에 PII 감지 실행
for image in extracted_images/*.png; do
  python detect_pii.py $image
  # 감지된 경우 "potential PII found" 플래그
done

이것은 편집자에게 추가 검토를 경고할 수 있습니다.

출처:

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.