구조화된 PII 대 자유 텍스트 PII 문제
학술 기관 간에 공유되는 연구 데이터는 가장 일반적으로 CSV 형식으로 이동합니다. 연구원이 공유를 위해 CSV를 준비할 때, 표준 익명화 체크리스트는 열 기반입니다: 개인 데이터를 포함하는 열을 식별하고, 해당 열을 삭제하거나 가명화합니다.
이 접근 방식은 구조화된 PII를 안정적으로 처리합니다. "email"이라는 열은 이메일 주소를 포함합니다 — 삭제합니다. "phone"이라는 열은 전화번호를 포함합니다 — 삭제합니다. "participant_name"이라는 열은 이름을 포함합니다 — 가명화합니다.
열 삭제 접근 방식이 놓치는 것: 자유 텍스트 응답 열에 포함된 PII입니다.
5,000행과 20개 열이 있는 설문 데이터 세트는 다음을 가질 수 있습니다:
- 5개의 구조화된 PII 열(이름, 이메일, 전화, ID, 출생년도)
- 15개의 자유 텍스트 응답 열("additional_comments", "describe_experience", "what_would_improve", "other_details")
구조화된 열은 열 삭제로 정리됩니다. 자유 텍스트 열은 그대로 남겨집니다. 하지만 설문 응답자들은 다음과 같은 내용을 작성합니다:
- "제 의사인 Boston Medical Center의 Dr. Maria Santos가 그 치료는 실험적이라고 말했습니다"
- "저는 2019년 John Henderson의 차가 제 차에 충돌한 이후로 이 문제를 다루고 있었습니다"
- "더 많은 정보가 필요하면 제 간병인 margaret.wells@gmail.com로 연락할 수 있습니다"
이러한 항목들은 명명된 개인, 기관 제휴, 건강 정보 및 연락처 세부 정보를 포함합니다 — 열 헤더에는 나타나지 않으며, 열 삭제 익명화로 포착되지도 않습니다.
왜 이것이 GDPR의 익명화 표준을 실패하는가
GDPR Recital 26은 익명 데이터를 "확인되거나 식별 가능한 자연인과 관련되지 않는" 정보로 정의합니다. 익명화의 표준은 높은 기준입니다: 데이터는 "불가능할" 경우에만(합리적 추정으로) 데이터 주체를 식별하는 것이 익명입니다.
부분적으로 익명화된 연구 CSV — 구조화된 열은 정리, 자유 텍스트 열은 명명된 개인을 포함 — 이 표준을 충족하지 못합니다. 자유 텍스트 응답의 명명된 개인은 식별 가능하며, 데이터 세트는 따라서 GDPR Article 89 보호 조치 요구 사항을 받는 개인 데이터로 남아 있습니다.
이는 여러 연구 맥락에서 중요합니다:
Article 89 연구 예외: GDPR Article 89는 "적절한 보호 조치"가 있을 경우에만 과학 연구 목적으로 개인 데이터의 처리를 허용합니다. 부분적으로 익명화된(그러나 여전히 자유 텍스트에 PII를 포함하는) 데이터 세트를 공유하면서 Article 89 보호 조치를 충족한다고 주장하는 것은 규정 준수 실패입니다.
연구 윤리 위원회 승인: 대부분의 학술 IRB 및 윤리 검토 위원회는 공유 데이터 세트가 진정으로 익명화되도록 요구합니다. 자유 텍스트 PII를 그대로 두는 부분적 익명화는 일반적으로 윤리 승인 조건을 충족하지 않습니다.
기관 간 데이터 공유 계약: 연구 데이터에 대한 DSA는 일반적으로 공유 데이터를 정의된 표준으로 익명화해야 함을 지정합니다. GDPR Recital 26을 실패하는 부분적 익명화는 DSA를 위반할 수 있습니다.
자유 텍스트 PII 감지의 기술적 과제
자유 텍스트 설문 응답은 가장 어려운 PII 감지 대상 중 하나입니다. 이유는:
맥락적 명명: "Boston Medical Center의 Dr. Maria Santos"는 "Maria Santos"를 사람으로 감지하고 "Boston Medical Center"를 조직으로 감지하기 위해 NER이 필요합니다 — 키워드 일치가 아닙니다. 패턴은 예측 불가능합니다.
부수적 식별: "John Henderson의 차가 제 차에 충돌했습니다"는 데이터 필드가 아니라 이야기에서 언급된 사람으로서 "John Henderson"을 식별하기 위해 NER이 필요합니다.
예상치 못한 형식의 연락처 정보: 자유 텍스트에 나타나는 이메일 주소와 전화번호는 정규식만의 감지가 놓치는 비표준 형식("margaret dot wells at gmail로 연락")을 가질 수 있습니다.
연구별 개체 유형: 학술 및 임상 연구 데이터는 종종 기관 식별자(병원 ID, 연구 사이트 코드), 임상 용어 및 위치 참조를 포함하며, 명백하지 않더라도 맥락상 PII입니다.
이것이 진정한 자유 텍스트 설문 익명화에 패턴 매칭만이 아니라 NLP 기반 감지가 필요한 이유입니다.
사용 사례: 다중 기관 연구 컨소시엄
3개 유럽 대학의 연구 컨소시엄은 환자 경험 설문을 수행했습니다: 5,000명의 응답자, 3개의 구조화된 PII 열 및 8개의 자유 텍스트 응답 열. 데이터는 데이터 공유 계약 및 GDPR Article 89 예외에 따른 협력적 분석을 위해 기관 간에 공유되어야 했습니다.
표준 접근(열 삭제만):
- 3개의 구조화된 PII 열 제거
- 8개의 자유 텍스트 열은 그대로 유지
- 규정 준수 주장: "PII 열 삭제됨"
- 실제 남아있는 PII: 자유 텍스트 응답에 언급된 47개 명명된 개인, 설명에서 자원한 23개 이메일 주소, 맥락에서 응답자를 식별할 수 있는 18개 위치 참조
자유 텍스트 NLP 감지 사용:
- 3개의 구조화된 PII 열 가명화(일관된 토큰, 삭제 아님 — 행 수 무결성 보존)
- 8개의 자유 텍스트 열 처리: 47개 개인명 감지 및 대체, 23개 이메일 주소 감지 및 마스크, 18개 위치 참조 감지 및 일반화("[Boston Medical Center]" → "[의료 기관]")
- 출력: GDPR Recital 26 표준을 충족하는 진정으로 익명화된 데이터 세트
- 연구 윤리 위원회가 익명화 방법론을 수락했습니다
- DPO 검토로 DSA 규정 준수 확인
차이: 두 번째 접근 방식은 실제로 익명화 표준을 충족하는 데이터 세트를 생성합니다. 첫 번째 접근 방식은 익명화된 것처럼 보이지만 검토되지 않은 열에는 식별 가능한 정보를 포함하는 데이터 세트를 생성합니다.
연구 데이터 익명화 프로토콜 구축
설문 및 인터뷰 데이터로 작업하는 연구 팀을 위한 구조화된 사전 공유 프로토콜:
1단계: 열 분류
- 모든 열 분류: 구조화된 PII, 구조화된 비-PII, 자유 텍스트 응답
- 분류 기록
2단계: 구조화된 PII 처리
- 삭제(연구에 필요하지 않은 경우) 또는 가명화(기록 연결에 필요한 경우)
- 사용된 대체 토큰 기록
3단계: 자유 텍스트 콘텐츠 분석
- 모든 자유 텍스트 열에서 NLP 감지 실행
- 감지된 개체 검토: 진정한 PII를 나타내는 것 확인
- 확인된 PII 개체에 대한 대체 적용
4단계: 검증
- 출력 데이터 세트에서 50-100행 샘플
- 감지된 개체를 포함하는 자유 텍스트 항목의 수동 검토
- 감지 비율이 열 유형에 적절한지 확인
5단계: 문서화
- 익명화 방법론 문서: 사용된 도구, 감지된 개체 유형, 처리된 열
- 윤리 검토를 위해 익명화된 데이터 세트와 함께 방법론 문서 공유
이 프로토콜은 "이름 열을 삭제했습니다"를 GDPR Article 89 및 기관 연구 윤리 요구 사항을 충족하는 방어 가능하고 기록된 익명화 프로세스로 변환합니다.
출처: