Excel이 가장 높은 위험 문서 유형인 이유
비즈니스 환경에서 PII를 축적하는 모든 문서 유형 중에서, 스프레드시트는 GDPR 규정 준수 관점에서 가장 위험한 것 중 하나입니다.
가장 민감하기 때문은 아닙니다 — 의료 기록과 법적 문서는 명확히 개인 데이터 주체에 대해 더 높은 위험입니다. 하지만 Excel 스프레드시트는 규정 준수 프로세스에 의해 체계적으로 과소 취급되는 특성을 가지고 있습니다:
볼륨 및 확산: 단일 XLSX 파일은 50,000행과 100열을 포함할 수 있습니다. 각 셀은 잠재적 PII 위치입니다. 수동 검토 프로세스는 이 볼륨에 안정적으로 확장되지 않습니다.
구조적 다양성: 텍스트 문서(순차적)와 PDF(페이지 기반)와 달리, Excel은 컨텍스트가 수평(열 헤더)으로 확산된 2차원 구조와 수직(행 관계)입니다. PII는 어디에나 나타날 수 있습니다.
PII와 혼합된 비즈니스 크리티컬 비-PII 데이터: 급여 수치, 성과 점수, 부서 코드 및 기타 합법적인 비즈니스 데이터는 SSN 및 이메일 주소와 동일한 스프레드시트에 있습니다. 비-PII 데이터를 불분명하게 하는 무분별한 익명화는 스프레드시트를 쓸모없게 만듭니다.
검토 없는 장기 보유: 고객 데이터베이스, 직원 목록 및 공급업체 목록은 Excel 파일에 축적되며 종종 GDPR 검토 없이 수년 동안 보유됩니다. GDPR의 저장 제한 원칙(Article 5(1)(e))은 데이터를 "필요한 것보다 더 오래" 저장하지 않아야 하지만, "유용할 수 있는" 스프레드시트는 무한정 지속되는 경향이 있습니다.
스프레드시트 PII 감지의 기술적 과제
표준 텍스트 분석 방법은 예측 가능한 방식으로 스프레드시트에서 실패합니다:
SSN-as-Number 문제
대시 없이 저장된 미국 사회 보장 번호(123456789)는 Excel 셀에 숫자로 저장됩니다. "###-##-####" 패턴을 검색하는 텍스트 분석은 이를 놓칠 것입니다. 형식 인식 감지는 "SSN"로 레이블이 지정된 열의 9자리 숫자가 대시 없이도 사회 보장 번호임을 인식해야 합니다.
Date-as-Number 문제
Excel은 날짜를 내부적으로 일련 번호로 저장합니다(1900년 1월 1일 = 1; 2024년 2월 6일 = 45329). "02/06/2024"를 표시하는 셀은 "45329"로 저장됩니다. Excel에서 내보낸 CSV의 분석은 "생년월일" 열에서 "45329"를 볼 수 있습니다 — 날짜가 아닌 숫자입니다. 컨텍스트 인식 감지는 이 변환을 처리해야 합니다.
Partial SSN 문제
일부 규정 준수 워크플로우는 운영상 사용을 위해 마지막 4자리만 표시되는 SSN을 저장합니다(*--1234). 전체 SSN은 권한이 있는 사용자를 위해 별도의 잠금 열에 저장됩니다. 전체 SSN 패턴과 일치하지 않더라도 부분 값의 익명화가 필요합니다.
Computed PII 문제
일부 셀은 다른 셀에서 PII 값을 생성하는 공식을 포함합니다. =CONCATENATE(B2," ",C2)가 있는 셀은 첫 번째 및 마지막 이름 열에서 전체 이름을 생성할 수 있습니다. 첫 번째 및 마지막 이름 열(B 및 C) 익명화는 정확합니다. 연결 셀도 업데이트해야 합니다. 공식 참조를 고려하지 않고 셀 값을 분석하는 도구는 소스 셀이 익명화된 후에도 PII가 공식 출력에 나타나는 스프레드시트를 생성할 수 있습니다.
Multi-Sheet 일관성 문제
큰 Excel 통합 문서는 5개의 시트를 가질 수 있습니다: "고객 목록", "주문", "지원 티켓", "청구", "분석". 고객 이름은 5개 시트 모두에 나타납니다. 일관된 익명화는 동일한 고객이 모든 시트에 걸쳐 동일한 익명화 토큰을 받도록 요구합니다 — "John Smith"가 고객 목록에서 "John Smith"와 지원 티켓에서 일관되게 "PERSON_0047"이 되도록, 기록 연결을 끊는 두 개의 다른 토큰이 되지 않도록 합니다.
감지 신호로서의 열 컨텍스트
스프레드시트 특정 PII 감지의 가장 중요한 개선 사항은 열 헤더 컨텍스트 분석입니다.
원칙: "SSN" 또는 "사회 보장 번호"로 레이블이 지정된 열은 감지 엔진에 신호를 보냅니다. 개별 값이 부분, 다르게 형식화되거나 숫자로 저장되더라도 해당 열의 모든 값을 사회 보장 번호로 취급해야 합니다.
감지 정확도를 개선하는 열 컨텍스트 신호:
| 열 헤더 | 감지 신호 |
|---|---|
| SSN / 사회 보장 / 세금 ID | SSN 컨텍스트 — 9자리 숫자는 SSN으로 처리됨 |
| 이메일 / 이메일 / 이메일 주소 | 이메일 컨텍스트 — 부분 패턴도 검증 |
| 전화 / 전화 / 휴대폰 / 셀 | 전화 컨텍스트 — 다양한 형식 허용 |
| DOB / 생년월일 / 생일 | 날짜 컨텍스트 — 일련 번호를 날짜로 변환 |
| 이름 / 성 / 전체 이름 | 이름 컨텍스트 — NER 감지를 위한 임계값 감소 |
| 주소 / 거리 / 도시 / ZIP | 주소 컨텍스트 — 지리 필드 결합 |
| 환자 ID / MRN / 기록 번호 | 의료 ID 컨텍스트 — 시설별 패턴 |
열 컨텍스트 분석은 내용 분석을 대체하지 않습니다 — 이를 보강합니다. "SSN"로 레이블이 지정된 열은 100개의 값으로 내용 분석을 통해 99개의 잘 형식화된 SSN을 감지합니다. 열 컨텍스트는 잘못 형식화되거나 부분 값인 1개를 감지하는 데 도움을 줍니다.
보존 요구 사항: PII 익명화, 구조 유지
대부분의 Excel GDPR 시나리오의 규정 준수 목표는 스프레드시트를 파괴하는 것이 아닙니다 — 개인 식별자를 제거하면서 스프레드시트를 유용하게 만드는 데이터 구조를 보존하는 것입니다.
15,000행 직원 기록 스프레드시트의 경우, GDPR 규정 준수 담당자는 다음이 필요합니다:
익명화:
- 직원 이름 → PERSON_XXXX 토큰
- SSN → REDACTED
- 이메일 주소 → REDACTED
- 전화번호 → REDACTED
- 집 주소 → REDACTED
보존:
- 부서 코드(개인 식별 정보 아님)
- 직책(일반 역할, 개인을 식별하지 않음)
- 급여 대역(일부 구현에서 집계 범주, 특정 금액 아님)
- 성과 점수(통계 데이터)
- 시작 날짜(개인 식별 없이 재직 기간 분석)
- 관리자 코드(관리자가 일관되게 가명화된 경우)
"개인을 식별하는 것"과 "고용 패턴을 설명하는 것" 사이의 구분을 보존하는 도구는 GDPR 책임 원칙 및 가명화 요구 사항을 충족하면서 HR 분석 목적으로 유용하게 남아있는 스프레드시트를 생성합니다.
사용 사례: M&A HR 데이터 전송
인수 회사는 인수된 회사로부터 직원 기록을 받습니다: 급여 대역, 부서 코드, 재직 기간, 직무 등급 — 식별 정보가 아닙니다.
처리하기 전: 40열 × 15,000행으로 전체 이름, SSN, 이메일 주소, 집 주소, 비상 연락처 및 급여 을 위한 은행 계좌 정보를 포함합니다.
열 컨텍스트 감지로 처리:
- 직접 식별(이름, SSN, 이메일, 전화, 주소, 은행 계좌)로 식별된 12개 열: 일관된 토큰으로 셀별 대체
- 간접 식별(직원 ID, 관리자 코드, 고유 직무 코드)로 식별된 3개 열: 가명화 토큰으로 대체(파일 내에서 일관되지만 외부 기록과 교차 참조 불가)
- 비-식별 통계 데이터(급여 대역, 부서, 재직 기간, 등급)로 식별된 25개 열: 변경되지 않고 보존
처리 시간: 600,000개 셀의 경우 8분 출력: 원래 형식의 XLSX, 40개 열 그대로, 15개 열 익명화/가명화, 25개 열 변경되지 않음 감사 보고서: 사용된 개체 유형, 신뢰도 및 열 컨텍스트 신호를 포함하는 200,000+ 익명화 작업의 셀 레벨 로그
HR 컨설턴트: 식별 정보가 없는 이점 계획을 위한 완전한 데이터 집합. GDPR 규정 준수 기록: 목적 제한을 증명하는 감사 보고서 — 특정 작업에 필요한 데이터만 공유되었습니다.
GDPR Article 5 요구 사항이 구조화된 익명화로 충족됨
스프레드시트 특정 익명화는 세 가지 Article 5 원칙을 동시에 충족합니다:
데이터 최소화(Art. 5(1)(c)): 특정 목적에 필요한 열만 공유됩니다. 식별 열은 익명화됩니다.
저장 제한(Art. 5(1)(e)): 원래 파일은 법정 보유 기간 동안 유지됩니다(식별 데이터 포함). 익명화된 버전은 더 짧거나 보유 요구 사항이 없는 공유 컨텍스트를 위해 생성됩니다.
무결성 및 기밀성(Art. 5(1)(f)): 모든 공유 인스턴스에서 식별 데이터 제거. 익명화된 버전만 제어 환경을 벗어납니다.
익명화 프로세스의 감사 추적은 Article 5(2) 책임 문서를 제공합니다 — 각 원칙에 대한 각 처리된 스프레드시트의 규정 준수를 증명합니다.
출처: