By · Last updated 2026-06-05

블로그로 돌아가기GDPR 및 준수

Excel 개인정보: 수백 개 컬럼 익명화 방법

Excel은 비즈니스 운영에서 개인정보 밀도가 가장 높은 문서 유형 중 하나입니다. 표준 텍스트 분석이 스프레드시트에서 실패하는 이유와 컬럼 컨텍스트 분석이 어떻게 해결하는지 설명합니다.

June 5, 20268 분 읽기
Excel GDPRspreadsheet anonymizationXLSX complianceHR datadata minimization

Excel이 가장 위험한 파일 유형인 이유

Excel 파일은 대부분의 기업에서 가장 큰 GDPR 위험 중 하나입니다. 의료 기록이 행당 더 민감한 데이터를 담을 수 있습니다. 하지만 스프레드시트는 개인정보를 빠르게 쌓아나가며 컴플라이언스 팀이 종종 놓칩니다.

세 가지 요인이 Excel 파일을 관리하기 어렵게 만듭니다.

규모: 하나의 XLSX 파일에 50,000개의 행과 100개의 컬럼이 있을 수 있습니다. 500만 개의 셀입니다. 수동 검토로는 모두 확인할 수 없습니다.

그리드 레이아웃: 텍스트는 한 방향으로 흐릅니다. Excel은 행과 컬럼에 걸쳐 데이터를 퍼뜨립니다. 개인 데이터가 그 그리드 어디에나 숨어 있을 수 있습니다.

혼합 콘텐츠: 급여 등급, 부서 코드, 직급이 SSN, 이메일 주소와 같은 파일에 있습니다. 모두 삭제하면 파일이 쓸모없게 됩니다.

장기 보존: 직원 목록과 고객 기록이 수년간 Excel에 남아 있습니다. GDPR 제5조(1)(e)는 데이터를 "필요 이상으로 오래" 보관하지 말라고 합니다. "유용할 수도 있는" 파일들이 종종 그 시점을 훨씬 넘어 남아 있습니다.

표준 텍스트 스캔이 스프레드시트에서 실패하는 이유

텍스트 분석 도구는 문서용으로 만들어졌습니다. 몇 가지 일반적인 방식으로 스프레드시트에서 실패합니다.

숫자로 저장된 SSN 문제

Excel은 대시 없이(123456789) 저장된 주민등록번호를 일반 숫자로 저장합니다 — 텍스트가 아닙니다. ###-##-#### 패턴을 찾도록 만들어진 스캐너는 이를 놓칩니다. 좋은 도구는 "SSN"이라는 컬럼의 9자리 숫자가 주민등록번호임을 알아야 합니다.

숫자로 저장된 날짜 문제

Excel은 날짜를 일련 번호로 저장합니다. 2024년 2월 6일은 45329로 저장됩니다. CSV 내보내기는 "생년월일" 컬럼에 "45329"를 보여줍니다. 스캐너는 값을 표시하기 전에 그 숫자를 실제 날짜로 변환해야 합니다.

부분 SSN 문제

일부 시스템은 SSN의 마지막 네 자리만 표시합니다(*--1234). 전체 번호는 잠긴 컬럼에 있습니다. 부분 값도 익명화되어야 합니다 — 전체 SSN처럼 보이지 않더라도.

수식 개인정보 문제

일부 셀은 다른 셀에서 개인정보를 조합합니다. =CONCATENATE(B2," ",C2)가 있는 셀은 전체 이름을 보여줍니다. B열과 C열을 지워도 그 전체 이름은 수식 셀에 여전히 보입니다. 저장된 값만 읽고 수식 연결을 읽지 않는 도구는 개인정보를 그대로 남깁니다.

다중 시트 문제

대형 워크북에 다섯 개의 시트가 있을 수 있습니다: 고객 목록, 주문, 지원 티켓, 청구, 분석. 고객 이름이 다섯 개 모두에 나타납니다. 한 시트의 "John Smith"는 다른 모든 시트에서 같은 토큰 — "PERSON_0047" — 이 되어야 합니다. 두 개의 다른 토큰은 레코드 연결을 깨뜨립니다.

신호로서의 컬럼 머리글

스프레드시트 개인정보 탐지에서 가장 큰 개선은 컬럼 머리글 분석입니다.

"SSN"이라는 컬럼은 도구에게 해당 컬럼의 모든 값이 주민등록번호임을 알려줍니다. 값이 부분적이거나, 형식이 이상하거나, 숫자로 저장되어 있어도 작동합니다.

컬럼 머리글의미하는 것
SSN / 주민등록번호 / 세금 ID9자리 숫자를 SSN으로 처리
Email / E-mail / 이메일 주소부분 이메일 패턴도 표시
Phone / Telephone / Mobile / Cell모든 전화 형식 허용
DOB / 생년월일 / Birthday일련 번호를 날짜로 변환
이름 / 성 / 전체 이름이름 탐지 기준 낮춤
Address / Street / City / ZIP인근 위치 필드 결합
Patient ID / MRN / Record Number의료 ID 패턴 적용

컬럼 컨텍스트가 콘텐츠 스캔을 대체하지 않습니다. 추가하는 것입니다. "SSN"이라는 컬럼에 100개의 값이 있을 때: 콘텐츠 스캔이 99개의 올바른 형식을 잡습니다. 컬럼 컨텍스트가 이상하게 보이는 하나를 잡습니다.

구조를 유지하고 이름을 제거하기

대부분의 Excel GDPR 사례에서 목표는 파일을 파괴하는 것이 아닙니다. 파일을 유용하게 만드는 부분을 유지하면서 개인 데이터를 제거하는 것입니다.

15,000행 직원 기록 파일의 경우 컴플라이언스 담당자에게 필요한 것:

제거:

  • 직원 이름 → PERSON_XXXX 토큰
  • SSN → 비식별화
  • 이메일 주소 → 비식별화
  • 전화번호 → 비식별화
  • 집 주소 → 비식별화

유지:

  • 부서 코드
  • 직함 (일반 직책만)
  • 급여 등급 (광범위한 범주)
  • 성과 점수 (그룹 데이터)
  • 입사일 (근속 통계용)
  • 관리자 코드 (가명 처리된 경우)

"사람을 식별하는 데이터"와 "직무를 설명하는 데이터"의 차이를 아는 도구는 HR 분석에 여전히 사용할 수 있는 파일을 제공합니다 — GDPR 데이터 최소화 규정도 충족하면서.

실제 사례: M&A HR 데이터 이전

인수 회사가 대상 기업으로부터 직원 기록을 받습니다: 40개 컬럼이 있는 15,000행 XLSX 파일. 파일을 복리후생 계획을 위한 외부 HR 회사에 보내야 합니다. GDPR은 해당 작업에 필요한 데이터만 공유할 수 있다고 규정합니다.

처리 전: 전체 이름, SSN, 이메일, 집 주소, 비상 연락처, 은행 정보가 있는 40개 컬럼.

컬럼 컨텍스트 처리 후:

  • 사람을 직접 식별하는 12개 컬럼 (이름, SSN, 이메일, 전화, 주소, 은행 데이터): 일관된 토큰으로 교체
  • 사람을 간접 식별하는 3개 컬럼 (직원 ID, 관리자 코드, 직책 코드): 파일 내에서 일치하는 가명 토큰으로 교체
  • 집계 데이터인 25개 컬럼 (급여 등급, 부서, 근속, 직급): 변경 없음

소요 시간: 600,000개 셀에 8분

출력: 동일한 XLSX 레이아웃, 40개 컬럼, 15개 익명화, 25개 변경 없음

감사 로그: 엔터티 유형, 신뢰도 점수, 사용된 컬럼 신호와 함께 모든 조치의 셀 수준 기록

HR 회사는 작업을 위한 전체 데이터셋을 받습니다 — 이름이나 ID 없이. 컴플라이언스 기록은 올바른 데이터만 공유되었다는 증거를 받습니다.

이 과제는 Excel에만 해당하지 않습니다. 모든 파일 형식은 자체적인 방식으로 실패합니다. 개인정보 탐지에서 형식 파편화의 영향에서 파일 유형 전반을 살펴보세요.

GDPR 제5조의 세 가지 규칙, 하나의 프로세스

구조화된 스프레드시트 익명화는 세 가지 규칙을 동시에 충족합니다.

데이터 최소화 (제5조(1)(c)): 작업에 필요한 컬럼만 수신자에게 전달됩니다. 식별 컬럼은 삭제됩니다.

저장 제한 (제5조(1)(e)): 원본 파일은 법적 보존을 위해 유지됩니다. 공유를 위해 정제된 복사본이 만들어집니다 — 더 짧거나 보존 필요가 없는.

무결성 및 기밀성 (제5조(1)(f)): 식별 데이터가 통제 영역을 벗어나지 않습니다. 정제된 복사본만 공유됩니다.

프로세스의 감사 로그도 제5조(2) 증거입니다. 각 파일에 대해 각 규칙이 어떻게 충족되었는지 보여줍니다.

DSAR나 대용량 데이터 내보내기를 처리하는 팀은 API 수준에서도 같은 논리가 적용됩니다. 실시간 API에서 GDPR 데이터 최소화 작동 방식을 참조하세요.

마감 시간이 빠듯한 고용량 팀은 GDPR DSAR 대규모 일괄 처리에서 적용 가능한 워크플로우 패턴을 확인하세요.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.