컬럼 삭제가 놓치는 공백
2026년 기준으로 업데이트되었습니다.
연구 데이터셋은 CSV 파일로 대학 간에 이동합니다. 팀이 CSV를 공유용으로 준비할 때 작업은 컬럼 기반입니다. 개인 정보를 찾아 삭제하거나 교체합니다.
그 방법은 고정 필드에서는 작동합니다. "email"이라는 컬럼에는 이메일 주소가 있습니다 — 삭제하세요. "phone"이라는 컬럼에는 전화번호가 있습니다 — 삭제하세요. "participant_name"이라는 컬럼에는 이름이 있습니다 — 코드로 교체하세요.
하지만 자유 텍스트 응답 컬럼은 맹점입니다. 레이블이 붙은 컬럼을 제거해도 이를 건드리지 않습니다.
5,000개 행의 설문에는 다섯 개의 구조화된 개인정보 컬럼과 열다섯 개의 공개 텍스트 응답 컬럼이 있을 수 있습니다. 구조화된 것들은 이름, 이메일, 전화번호, ID, 생년도를 보유합니다. 공개 텍스트 것들은 의견, 메모, 제안을 보유합니다.
구조화된 컬럼은 정제됩니다. 공개 텍스트 컬럼은 원시 상태로 남습니다. 하지만 사람들은 이런 세 가지 예와 같은 것을 씁니다.
첫째: "Boston Medical Center의 제 주치의 Dr. Maria Santos께서 치료가 새로운 것이라고 하셨습니다." 둘째: "2019년 사고 이후로 이 문제를 겪고 있습니다." 셋째: "세부 사항에 대해 보호자 margaret.wells@gmail.com으로 연락하세요."
각 항목에는 실제 사람의 이름이 있습니다. 일부는 건강 정보나 연락처를 포함합니다. 이 중 어느 것도 컬럼 헤더에 나타나지 않습니다. 어느 것도 컬럼 삭제로 잡히지 않습니다.
이것이 GDPR 기준에 실패하는 이유
GDPR 전문 26항은 익명 기록을 어떤 사람과도 연결할 수 없는 기록으로 정의합니다. 기준이 높습니다. 재식별이 합리적으로 가능하지 않을 때만 기록이 진정으로 익명입니다.
구조화된 컬럼은 정제되었지만 공개 텍스트에 이름이 있는 CSV는 그 테스트를 통과하지 못합니다. 그 이름들은 식별 가능합니다. 데이터셋은 여전히 개인적입니다. GDPR 제89조 규칙이 여전히 적용됩니다. 세 가지 위험이 발생합니다.
제89조 연구 면제: 제89조는 연구자들이 더 적은 의무로 과학적 목적으로 개인 정보를 처리할 수 있게 합니다. 하지만 "적절한 안전장치"가 있을 때만. 공개 텍스트 개인정보가 있는 파일을 공유하면서 제89조 보호를 주장하는 것은 법적 실패입니다.
윤리 승인: 대부분의 IRB와 윤리위원회는 공유 데이터셋의 완전한 익명화를 요구합니다. 부분적인 작업 — 고정 컬럼은 정제되었으나 공개 텍스트는 원시 상태 — 은 일반적으로 실패합니다. 위원회가 제출을 거부할 수 있습니다.
데이터 공유 협약: 기관 간 DSA는 필요한 익명화 수준을 정합니다. GDPR 전문 26항에 실패하는 부분적인 작업은 DSA를 위반할 수 있습니다. 더 넓은 프로그램에 맞추는 방법은 법적 컴플라이언스 개요를 참조하세요.
공개 텍스트가 정제하기 어려운 이유
자유 텍스트 설문 응답은 가장 어려운 개인정보 대상 중 하나입니다. 이유는 다음과 같습니다.
맥락 속의 이름: "Boston Medical Center의 Dr. Maria Santos"는 사람과 조직을 표시하기 위해 명명 엔터티 인식(NER)이 필요합니다. 키워드 목록으로는 찾을 수 없습니다.
이야기 속의 이름: "John Henderson의 차가 제 차를 쳤습니다"는 이야기 안에 실제 이름을 넣습니다. 지나가듯 언급된 사람입니다. NER만이 이를 잡습니다.
비표준 형식: 연락처 정보가 "margaret dot wells at gmail로 연락하세요"로 읽힐 수 있습니다. 단순한 정규식 도구는 이를 놓칩니다.
연구 특유 용어: 임상 설문에는 종종 병원 ID, 현장 코드, 지명이 포함됩니다. 이것들은 일반적으로 보여도 사람을 식별할 수 있습니다.
따라서 패턴 매칭만으로는 충분하지 않습니다. 진정한 설문 익명화를 위해 NLP 기반 도구가 필요합니다. 기술적 옵션은 보안 및 컴플라이언스를 참조하세요.
세 대학의 실제 사례
세 유럽 대학의 연구팀이 환자 경험 설문을 실시했습니다. 데이터셋에는 5,000명의 응답자, 3개의 고정 개인정보 컬럼, 8개의 공개 텍스트 컬럼이 있었습니다. DSA와 GDPR 제89조 하에서 현장 간 파일을 공유할 계획이었습니다.
컬럼 삭제만 사용 시:
- 고정 개인정보 컬럼: 제거됨
- 공개 텍스트 컬럼: 원시 상태로 남음
- 주장: "개인정보 컬럼 삭제됨"
- 남겨진 개인정보: 47명의 명명된 사람, 주석의 23개 이메일 주소, 응답자를 식별할 수 있는 18개의 지명
NLP 기반 탐지 사용 시:
- 고정 개인정보 컬럼: 일관된 토큰으로 교체
- 공개 텍스트 컬럼: 47개 이름 교체, 23개 이메일 마스킹, 18개 지명 일반화 ("Boston Medical Center" → "[의료 기관]")
- 결과: GDPR 전문 26항을 통과하는 파일
- 윤리위원회가 방법 승인
- DPO가 DSA 컴플라이언스 확인
공백은 실재합니다. 첫 번째 출력은 정제된 것처럼 보입니다. 두 번째 출력은 실제로 정제되었습니다.
5단계 공유 전 프로토콜
설문이나 인터뷰 파일을 공유하기 전에 이 단계들을 사용하세요.
1단계: 각 컬럼 레이블 지정 모든 컬럼을 고정 개인정보, 고정 비개인정보, 또는 공개 텍스트로 표시합니다. 기록하세요.
2단계: 고정 개인정보 처리 분석에 필요하지 않은 항목을 삭제합니다. 레코드 연결에 필요한 항목을 교체합니다. 사용된 코드를 기록합니다.
3단계: 공개 텍스트 컬럼 스캔 모든 공개 텍스트 컬럼에 NLP 탐지를 실행합니다. 각 결과를 검토합니다. 어느 것이 실제 개인정보인지 확인합니다.
4단계: 교체 적용
공개 텍스트 출력에서 확인된 개인정보를 교체합니다. [PERSON], [EMAIL], [LOCATION]과 같은 명확한 레이블을 사용합니다.
5단계: 검증 및 문서화 출력에서 50~100개 행을 샘플링합니다. 공개 텍스트 항목을 수동으로 확인합니다. 짧은 요약을 작성합니다: 사용된 도구, 발견된 엔터티 유형, 처리된 컬럼. 윤리 검토를 위해 파일과 함께 공유합니다.
이것은 "이름 컬럼을 삭제했습니다"를 명확하고 문서화된 프로세스로 전환합니다. GDPR 제89조와 대부분의 윤리위원회가 요구하는 익명화 기준을 충족합니다. 관련 가이드는 문서 허브를 방문하세요.