2026년 업데이트
하나의 해결책, 두 가지 새로운 위험
많은 법무법인이 이제 텍스트가 AI 제공업체에 도달하기 전에 이름과 ID를 제거해 AI 유출을 차단합니다. 단방향 해싱, 하드 처리, 또는 완전 제거가 모두 안전하게 보입니다. AI는 깨끗한 텍스트를 받습니다. 민감한 세부 정보는 내부에 유지됩니다.
보안 측면에서는 논리가 성립합니다. Cyberhaven의 2025년 4분기 연구는 **ChatGPT에 전송된 콘텐츠의 34.8%**가 민감한 데이터를 보유하고 있음을 발견했습니다. Ponemon의 2024년 보고서는 평균 AI 침해 비용을 210만 달러로 책정했습니다.
그러나 완전 제거는 한 가지 위험을 또 다른 위험으로 거래합니다: 증거 훼손.
소송이나 감사 대상이 되는 법무법인에게, 원시 기록을 복원하는 능력을 파괴하는 것은 연방 및 주 규정 하에서 증거 훼손으로 간주될 수 있습니다.
GDPR: 가역성이 요구됩니다
GDPR Article 4(5)는 가명화를 "추가 정보를 사용하지 않고 특정 데이터 주체에 더 이상 귀속될 수 없는" 방식으로 개인 기록을 처리하는 것으로 정의합니다. 단, 그러한 추가 정보를 별도로 보관하는 것을 조건으로 합니다.
핵심 포인트: 재연결을 가능하게 하는 추가 키를 보관해야 합니다.
- 토큰 마스킹된 기록은 일부 GDPR 의무를 유지하지만 법적 사용을 위해 복원될 수 있습니다.
- 완전히 삭제된 기록은 GDPR 범위 밖에 있을 수 있지만 전혀 복원될 수 없습니다.
EDPB의 가이드라인 05/2022는 가역성이 정의의 핵심 부분임을 확인합니다.
연방 규칙: 증거 훼손 테스트
연방 민사소송 규칙 하에서, 당사자들은 예상되는 법적 행위와 관련될 수 있는 기록을 보존해야 합니다. 이 의무는 소송이 제기될 때가 아니라 소송이 합리적으로 예상될 때 시작됩니다.
규칙 37(e)는 당사자가 저장된 기록을 보존하지 못할 때 법원이 제재를 부과할 수 있도록 합니다:
- 불리한 추론 지침
- 증거 배제
- 심각한 경우 사건 종결 제재
가역적 vs 비가역적: 핵심 차이
단방향: 되돌아갈 방법 없음
SHA-256 해싱은 고정 해시를 생성합니다. 해시에서 이름을 도출할 수 없습니다. 하드 처리는 원시 콘텐츠가 사라지도록 텍스트를 제거합니다.
가역적: 복구 가능
키 보존을 통한 토큰 대체와 AES-256-GCM 암호화 모두 취소될 수 있는 방식으로 기록을 변환합니다. 토큰으로 대체된 이름은 조회 테이블을 통해 복원될 수 있습니다.
AI 보호를 위해 두 방법 모두 동일하게 작동합니다. AI는 토큰을 처리하고 실제 기록을 보지 않습니다.
법적 의무를 위해서는 가역적 토큰 마스킹만 작동합니다. 단방향 방법은 복구를 차단하고 위에서 언급한 증거 훼손 위험을 만듭니다.
이중 준수 설계
AI 보안과 법적 공개 의무를 모두 충족하는 설계는 가역적 AES-256-GCM 토큰 마스킹을 사용합니다:
- 기록이 AI 도구에 도달하기 전에 처리됩니다.
- 민감한 항목 — 이름, ID, PHI, 특권 콘텐츠 — 이 구조화된 토큰으로 교체됩니다.
- 토큰 맵이 접근 제어와 함께 별도 저장소에 유지됩니다.
- AI 처리가 토큰 사본에서 실행됩니다.
- 결과가 일반 비즈니스 사용을 위해 토큰 맵을 사용해 복원됩니다.
- 발견 의무가 적용될 때 토큰 맵이 법적 보존에 놓입니다.
이 설계 하에서 원시 콘텐츠는 절대 손실되지 않습니다.
출처
- Cyberhaven Q4 2025: AI 도구의 데이터 노출
- IBM / Ponemon Institute: Cost of a Data Breach Report 2024
- EDPB Guidelines 05/2022 on Pseudonymization
- Federal Rules of Civil Procedure Rule 37(e)