By · Last updated 2026-06-05

블로그로 돌아가기AI 보안

AI 데이터 유출을 막는 실시간 PII 차단

직원이 고객 이름을 ChatGPT에 입력하는 순간, 데이터는 조직의 통제를 벗어납니다. 사후 DLP로는 이미 울린 종을 되돌릴 수 없습니다.

June 5, 20267 분 읽기
AI data preventionChatGPT PIIreal-time anonymizationDLP alternativeChrome Extension

실시간 PII 차단: AI 데이터 유출을 발생 전에 막기

2026년 기준으로 업데이트되었습니다.

2023년 3월, 삼성 엔지니어가 소스 코드를 ChatGPT에 붙여넣었습니다. 코드는 즉시 삼성의 통제를 벗어났습니다. 어떤 도구도 제때 이를 막지 못했습니다. 사후 보안 통제는 AI 데이터 유출을 막을 수 없습니다. 이 사건 하나로 그것이 증명되었습니다.

탐지 도구는 사실 발생 후에 무슨 일이 있었는지 알려줍니다. 로그 확인, 엔드포인트 DLP, 감사 로그 모두 이런 방식으로 작동합니다. AI 유출에서는 사후 확인이 너무 늦습니다. 데이터는 이미 AI 모델에 도달했습니다.

문제의 규모

2025년 Cyberhaven 연구는 기업의 AI 사용 방식을 분석했습니다. 결과는 충격적이었습니다.

  • ChatGPT 프롬프트의 11%에 개인 정보 또는 민감한 데이터가 포함되어 있습니다.
  • 평균 직원은 하루에 AI 도구를 14번 사용합니다.
  • 고사용자는 하루 30~50회 상호작용합니다.
  • 11%를 적용하면 직원 1인당 하루 3~5건의 민감 정보 전송이 발생합니다.

500명의 고사용자를 보유한 기업에서는 하루 2,000건 이상의 민감 정보 전송이 발생합니다. 각각이 GDPR 제83조 위반 가능성이 있습니다. 위험은 법적 문제에만 그치지 않습니다. 신뢰와 평판도 위험에 처합니다.

AI 프롬프트에 포함되는 민감 정보의 일반적인 유형은 다음과 같습니다.

  • 고객 이름 및 연락처 정보.
  • 계좌번호 및 결제 기록.
  • 의료 종사자의 진료 노트.
  • 변호사의 사건 세부 정보.
  • HR 팀의 직원 평가 노트.
  • 내부 수익 또는 영업 전망.

이 연구는 의도적 공유와 실수에 의한 공유를 구분하지 않습니다. 두 경우 모두 동일한 법적 위험을 만듭니다. 고객 이름 제거를 깜빡한 직원은 규정을 무시한 직원과 동일한 위반을 야기합니다. 의도는 결과를 바꾸지 않습니다.

탐지가 부족한 이유

네트워크 검사는 TLS 차단 없이 HTTPS 트래픽을 읽을 수 없습니다. TLS 차단은 오버헤드를 추가하고 개인정보 우려를 낳습니다. 현대 브라우저는 이를 종종 거부합니다.

엔드포인트 DLP 에이전트는 클립보드와 키 입력을 감시합니다. 하지만 지연이 있습니다. 에이전트가 패턴을 표시할 때쯤 이미 프롬프트가 전송되었을 수 있습니다.

벤더 감사 로그는 공유된 이후 무엇이 공유되었는지 기록합니다. 대응에는 도움이 됩니다. 유출을 막지는 않습니다.

직원 교육은 정책이지, 통제 수단이 아닙니다. Cyberhaven 연구에 따르면 명확한 정책을 보유한 기업에서도 프롬프트의 11%에는 여전히 민감 정보가 포함됩니다. 교육은 실수 또는 업무 중 부주의를 막지 못합니다.

AI 도구 차단은 생산성 향상을 없앱니다. 직원들은 개인 기기나 계정을 사용합니다. 그러면 업무가 어떠한 감시도 받지 않는 영역으로 이동합니다.

이러한 방법 중 어느 것도 민감 정보가 실시간으로 AI 시스템에 도달하는 것을 막지 못합니다.

입력 시점에서의 차단

유일하게 안전한 방어는 프롬프트 전송 전 마스킹입니다. 브라우저를 떠나기 전에 **[PERSON_1]**으로 대체된 고객 이름은 AI 모델이 절대 보지 못합니다.

인라인 마스킹 작동 방식은 다음과 같습니다.

  1. 직원이 Claude 또는 ChatGPT에 고객 이메일을 입력합니다.
  2. 브라우저 확장 프로그램이 실시간으로 개인 데이터를 탐지합니다.
  3. 엔터티가 유형 레이블로 표시됩니다: PERSON, EMAIL_ADDRESS, ACCOUNT_NUMBER.
  4. 직원이 표시된 항목을 검토합니다.
  5. 클릭 한 번으로 모든 엔터티가 토큰으로 교체됩니다.
  6. 마스킹된 프롬프트가 전송됩니다.

AI는 다음과 같은 프롬프트를 받습니다. "고객 **[PERSON_1]**의 이메일은 **[EMAIL_1]**이며 계좌번호는 **[ACCOUNT_1]**입니다."

AI가 요청을 처리합니다. 실제 이름이나 번호는 보지 못합니다. 직원은 맥락에서 실제 고객을 파악합니다.

이 방식에는 명확한 이점이 있습니다.

  • 개인 데이터가 외부 AI 시스템에 전달되지 않습니다.
  • 고객 정보가 AI 학습 데이터에 추가되지 않습니다.
  • 직원은 AI 도구 접근을 유지합니다. 생산성은 그대로입니다.

직원이 도구를 우회한다면 의도적 공유를 막지는 못합니다. 파일 업로드는 별도의 워크플로우가 필요합니다. 완벽한 통제는 없습니다. 하지만 인라인 마스킹은 우발적 공유 그룹을 제거합니다. 이 그룹이 대부분의 사고를 구성합니다. 결과는 일상 업무 방식의 변화 없이 위험이 크게 감소합니다.

법률 사무소 사례 연구

한 법률 사무소의 직원들이 Claude를 사용해 계약서 노트를 작성했습니다. 방식: 계약서 섹션을 복사하여 Claude에 붙여넣고 요약을 요청했습니다.

Chrome 확장 프로그램 사용 전 — 첫 6개월:

  • 검토 중 발견된 고객 데이터 사고 3건.
  • 각 사고: 고객 이름과 사건 참조 번호가 프롬프트에 포함.
  • 모두 실수에 의한 사고.

Chrome 확장 프로그램 사용 후 — 이후 6개월:

  • 고객 데이터 사고 0건.
  • 직원들이 고객 이름이 포함된 섹션을 붙여넣을 때 실시간 알림 수신.
  • 클릭 한 번으로 "Johnson Controls 사건 2024-0347"이 "[PERSON_1] 사건 [REFERENCE_1]"으로 대체.
  • 업무 방식은 동일.

대표 파트너는 이렇게 말했습니다. "우리 직원들은 확장 프로그램 전에도 정책을 알고 있었습니다. 확장 프로그램이 준법을 더 쉬운 길로 만들었습니다."

다른 사무소들의 사례는 고객 사례에서 확인하세요. 통제 수단은 보안 개요에서 검토하세요.

컴플라이언스 팀을 위한 GDPR 기록

브라우저 기반 AI 마스킹을 사용하는 기업은 이를 기술적 통제로 문서화해야 합니다.

처리 기록(ROPA): AI 프롬프트가 벤더에게 전달되기 전에 클라이언트 측 마스킹을 거친다고 명시합니다. 증거로 엔터티 유형, 엔진 버전, 배포 로그를 나열합니다.

데이터 처리자 계약: AI 벤더에게 개인 데이터가 도달하지 않는 경우, DPA 의무가 단순해집니다. 보유한 개인 데이터가 시스템을 떠나지 않습니다.

감사 로그: 확장 프로그램 로그는 세션당 엔터티 수, 마스킹 비율, 유형별 엔터티 수를 수집합니다. 이 지표들은 컴플라이언스 보고서에 활용됩니다.

AI 도구에 관한 GDPR 규정은 법적 준법 가이드용어집에서 검토하세요. 자주 묻는 질문은 FAQ에서 확인하세요.

결론

삼성 사건은 AI 유출이 어떤 사후 통제도 대응할 수 없을 만큼 빠르게 일어난다는 것을 보여주었습니다. Cyberhaven 연구는 수치로 이를 입증했습니다: 프롬프트의 11%, 직원 1인당 하루에도 여러 번.

전송 전 실시간 마스킹이 근본 원인을 해결합니다. 개인 데이터가 AI에 절대 도달하지 않으면 탐지하거나 기록하거나 정리할 것이 없습니다. 직원들은 AI 도구를 계속 사용합니다. 기업들은 컴플라이언스 상태를 유지합니다.

탐지는 차단이 실패했을 때 알려줍니다. AI 데이터 유출에서 실패 비용 — 과징금, 평판 손상, 신뢰 상실 — 은 차단을 우선시하는 것을 정당화합니다.

귀사를 위한 요금제를 확인하세요. 차단 우선이 핵심 설계 원칙인 이유는 창업자 메시지에서 읽을 수 있습니다.

출처

  • Cyberhaven: AI 데이터 노출 연구 2025 — cyberhaven.com.
  • 삼성 ChatGPT 데이터 유출, 2023년 3월 — Bloomberg.
  • GDPR 제4조 및 제32조: 개인 데이터 및 기술적 조치 — gdpr-info.eu.

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.