Excel이 가장 위험한 파일 유형인 이유

Excel 파일은 대부분의 기업에서 가장 큰 GDPR 위험 중 하나입니다. 의료 기록이 행당 더 민감한 데이터를 담을 수 있습니다. 하지만 스프레드시트는 개인정보를 빠르게 쌓아나가며 컴플라이언스 팀이 종종 놓칩니다.

세 가지 요인이 Excel 파일을 관리하기 어렵게 만듭니다.

규모: 하나의 XLSX 파일에 50,000개의 행과 100개의 컬럼이 있을 수 있습니다. 500만 개의 셀입니다. 수동 검토로는 모두 확인할 수 없습니다.

그리드 레이아웃: 텍스트는 한 방향으로 흐릅니다. Excel은 행과 컬럼에 걸쳐 데이터를 퍼뜨립니다. 개인 데이터가 그 그리드 어디에나 숨어 있을 수 있습니다.

혼합 콘텐츠: 급여 등급, 부서 코드, 직급이 SSN, 이메일 주소와 같은 파일에 있습니다. 모두 삭제하면 파일이 쓸모없게 됩니다.

장기 보존: 직원 목록과 고객 기록이 수년간 Excel에 남아 있습니다. GDPR 제5조(1)(e)는 데이터를 "필요 이상으로 오래" 보관하지 말라고 합니다. "유용할 수도 있는" 파일들이 종종 그 시점을 훨씬 넘어 남아 있습니다.

표준 텍스트 스캔이 스프레드시트에서 실패하는 이유

텍스트 분석 도구는 문서용으로 만들어졌습니다. 몇 가지 일반적인 방식으로 스프레드시트에서 실패합니다.

숫자로 저장된 SSN 문제

Excel은 대시 없이(123456789) 저장된 주민등록번호를 일반 숫자로 저장합니다 — 텍스트가 아닙니다. ###-##-#### 패턴을 찾도록 만들어진 스캐너는 이를 놓칩니다. 좋은 도구는 "SSN"이라는 컬럼의 9자리 숫자가 주민등록번호임을 알아야 합니다.

숫자로 저장된 날짜 문제

Excel은 날짜를 일련 번호로 저장합니다. 2024년 2월 6일은 45329로 저장됩니다. CSV 내보내기는 "생년월일" 컬럼에 "45329"를 보여줍니다. 스캐너는 값을 표시하기 전에 그 숫자를 실제 날짜로 변환해야 합니다.

부분 SSN 문제

일부 시스템은 SSN의 마지막 네 자리만 표시합니다(*--1234). 전체 번호는 잠긴 컬럼에 있습니다. 부분 값도 익명화되어야 합니다 — 전체 SSN처럼 보이지 않더라도.

수식 개인정보 문제

일부 셀은 다른 셀에서 개인정보를 조합합니다. =CONCATENATE(B2," ",C2)가 있는 셀은 전체 이름을 보여줍니다. B열과 C열을 지워도 그 전체 이름은 수식 셀에 여전히 보입니다. 저장된 값만 읽고 수식 연결을 읽지 않는 도구는 개인정보를 그대로 남깁니다.

다중 시트 문제

대형 워크북에 다섯 개의 시트가 있을 수 있습니다: 고객 목록, 주문, 지원 티켓, 청구, 분석. 고객 이름이 다섯 개 모두에 나타납니다. 한 시트의 "John Smith"는 다른 모든 시트에서 같은 토큰 — "PERSON_0047" — 이 되어야 합니다. 두 개의 다른 토큰은 레코드 연결을 깨뜨립니다.

신호로서의 컬럼 머리글

스프레드시트 개인정보 탐지에서 가장 큰 개선은 컬럼 머리글 분석입니다.

"SSN"이라는 컬럼은 도구에게 해당 컬럼의 모든 값이 주민등록번호임을 알려줍니다. 값이 부분적이거나, 형식이 이상하거나, 숫자로 저장되어 있어도 작동합니다.

컬럼 머리글	의미하는 것
SSN / 주민등록번호 / 세금 ID	9자리 숫자를 SSN으로 처리
Email / E-mail / 이메일 주소	부분 이메일 패턴도 표시
Phone / Telephone / Mobile / Cell	모든 전화 형식 허용
DOB / 생년월일 / Birthday	일련 번호를 날짜로 변환
이름 / 성 / 전체 이름	이름 탐지 기준 낮춤
Address / Street / City / ZIP	인근 위치 필드 결합
Patient ID / MRN / Record Number	의료 ID 패턴 적용

컬럼 컨텍스트가 콘텐츠 스캔을 대체하지 않습니다. 추가하는 것입니다. "SSN"이라는 컬럼에 100개의 값이 있을 때: 콘텐츠 스캔이 99개의 올바른 형식을 잡습니다. 컬럼 컨텍스트가 이상하게 보이는 하나를 잡습니다.

구조를 유지하고 이름을 제거하기

대부분의 Excel GDPR 사례에서 목표는 파일을 파괴하는 것이 아닙니다. 파일을 유용하게 만드는 부분을 유지하면서 개인 데이터를 제거하는 것입니다.

15,000행 직원 기록 파일의 경우 컴플라이언스 담당자에게 필요한 것:

제거:

직원 이름 → PERSON_XXXX 토큰
SSN → 비식별화
이메일 주소 → 비식별화
전화번호 → 비식별화
집 주소 → 비식별화

유지:

부서 코드
직함 (일반 직책만)
급여 등급 (광범위한 범주)
성과 점수 (그룹 데이터)
입사일 (근속 통계용)
관리자 코드 (가명 처리된 경우)

"사람을 식별하는 데이터"와 "직무를 설명하는 데이터"의 차이를 아는 도구는 HR 분석에 여전히 사용할 수 있는 파일을 제공합니다 — GDPR 데이터 최소화 규정도 충족하면서.

실제 사례: M&A HR 데이터 이전

인수 회사가 대상 기업으로부터 직원 기록을 받습니다: 40개 컬럼이 있는 15,000행 XLSX 파일. 파일을 복리후생 계획을 위한 외부 HR 회사에 보내야 합니다. GDPR은 해당 작업에 필요한 데이터만 공유할 수 있다고 규정합니다.

처리 전: 전체 이름, SSN, 이메일, 집 주소, 비상 연락처, 은행 정보가 있는 40개 컬럼.

컬럼 컨텍스트 처리 후:

사람을 직접 식별하는 12개 컬럼 (이름, SSN, 이메일, 전화, 주소, 은행 데이터): 일관된 토큰으로 교체
사람을 간접 식별하는 3개 컬럼 (직원 ID, 관리자 코드, 직책 코드): 파일 내에서 일치하는 가명 토큰으로 교체
집계 데이터인 25개 컬럼 (급여 등급, 부서, 근속, 직급): 변경 없음

소요 시간: 600,000개 셀에 8분

출력: 동일한 XLSX 레이아웃, 40개 컬럼, 15개 익명화, 25개 변경 없음

감사 로그: 엔터티 유형, 신뢰도 점수, 사용된 컬럼 신호와 함께 모든 조치의 셀 수준 기록

HR 회사는 작업을 위한 전체 데이터셋을 받습니다 — 이름이나 ID 없이. 컴플라이언스 기록은 올바른 데이터만 공유되었다는 증거를 받습니다.

이 과제는 Excel에만 해당하지 않습니다. 모든 파일 형식은 자체적인 방식으로 실패합니다. 개인정보 탐지에서 형식 파편화의 영향에서 파일 유형 전반을 살펴보세요.

구조화된 스프레드시트 익명화는 세 가지 규칙을 동시에 충족합니다.

데이터 최소화 (제5조(1)(c)): 작업에 필요한 컬럼만 수신자에게 전달됩니다. 식별 컬럼은 삭제됩니다.

저장 제한 (제5조(1)(e)): 원본 파일은 법적 보존을 위해 유지됩니다. 공유를 위해 정제된 복사본이 만들어집니다 — 더 짧거나 보존 필요가 없는.

무결성 및 기밀성 (제5조(1)(f)): 식별 데이터가 통제 영역을 벗어나지 않습니다. 정제된 복사본만 공유됩니다.

프로세스의 감사 로그도 제5조(2) 증거입니다. 각 파일에 대해 각 규칙이 어떻게 충족되었는지 보여줍니다.

DSAR나 대용량 데이터 내보내기를 처리하는 팀은 API 수준에서도 같은 논리가 적용됩니다. 실시간 API에서 GDPR 데이터 최소화 작동 방식을 참조하세요.

마감 시간이 빠듯한 고용량 팀은 GDPR DSAR 대규모 일괄 처리에서 적용 가능한 워크플로우 패턴을 확인하세요.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

무료 체험 시작 기능 보기

Excel 개인정보: 수백 개 컬럼 익명화 방법

Excel이 가장 위험한 파일 유형인 이유

표준 텍스트 스캔이 스프레드시트에서 실패하는 이유

숫자로 저장된 SSN 문제

숫자로 저장된 날짜 문제

부분 SSN 문제

수식 개인정보 문제

다중 시트 문제

신호로서의 컬럼 머리글

구조를 유지하고 이름을 제거하기

실제 사례: M&A HR 데이터 이전

출처

관련 기사

자체 호스팅 PII 도구가 컴플라이언스 감사에서 실패하는 이유

Presidio가 GDPR 엔터티 220개 이상을 누락하는 이유

설정 드리프트: 숨겨진 GDPR 위험

데이터 보호를 시작할 준비가 되셨나요?

Excel 개인정보: 수백 개 컬럼 익명화 방법

Excel이 가장 위험한 파일 유형인 이유

표준 텍스트 스캔이 스프레드시트에서 실패하는 이유

숫자로 저장된 SSN 문제

숫자로 저장된 날짜 문제

부분 SSN 문제

수식 개인정보 문제

다중 시트 문제

신호로서의 컬럼 머리글

구조를 유지하고 이름을 제거하기

실제 사례: M&A HR 데이터 이전

GDPR 제5조의 세 가지 규칙, 하나의 프로세스

출처

관련 기사

자체 호스팅 PII 도구가 컴플라이언스 감사에서 실패하는 이유

Presidio가 GDPR 엔터티 220개 이상을 누락하는 이유

설정 드리프트: 숨겨진 GDPR 위험

데이터 보호를 시작할 준비가 되셨나요?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow