이진 PII 탐지가 컴플라이언스에 실패하는 이유

2026년 기준으로 업데이트되었습니다.

모든 PII 도구는 하나의 어려운 문제에 직면합니다. 동일한 문자열이 한 곳에서는 개인 데이터이고 다른 곳에서는 그렇지 않을 수 있습니다.

고객 파일의 "홍길동"은 정보 주체입니다. 역사서에서 홍길동에 관한 내용의 "홍길동"은 아닙니다. 의료 기록의 9자리 숫자는 HIPAA 코드입니다. 제품 코드의 동일한 9자리는 그렇지 않습니다.

예/아니오 플래그로는 이를 처리할 수 없습니다. 두 가지 나쁜 선택을 강요합니다: PII일 수 있는 모든 문자열을 익명화하거나, 확실한 일치만 익명화하거나. 모든 결정이 명확하고 문서화되어야 하는 법률 분야에서는 둘 다 실패합니다.

0에서 100까지의 엔터티별 점수는 세 번째 경로를 제공합니다. 계층화된 규칙, 인간 검토 대기열, 완전한 감사 기록을 구동합니다.

예/아니오 플래그의 한계

맥락이 데이터의 의미를 바꿉니다. 두 파일이 동일한 문자열을 가질 수 있습니다. 하나에서는 개인 데이터이고, 다른 하나에서는 아닙니다. 플래그는 이를 보여줄 수 없습니다. 숫자는 할 수 있습니다.

플래그만으로는 두 가지 선택지가 있으며 모두 나쁩니다. 과도한 익명화는 문서 가치를 훼손합니다. 불충분한 익명화는 법적 위험을 만듭니다. 어느 것도 법정에서 유지되지 않습니다.

법적 증거 개시: 점수가 필요한 이유

법적 증거 개시에는 점수화된 탐지를 필수로 만드는 규칙들이 있습니다.

과도한 익명화 문제. 변호사 이름이나 법원 인용 문구를 익명화하면 증거가 손상됩니다. 법원은 과도한 익명화로 변호사에게 벌금을 부과해 왔습니다. 미흡한 익명화를 다루는 판례법이 이 문제도 다룹니다.

미흡한 익명화 문제. 실제 PII를 놓치면 위험이 생깁니다. 의뢰인 개인정보 침해, 변호사회 불만, 일부 지역에서는 형사 처벌도 포함됩니다.

각 결정에 대한 설명 필요. 법원이 항목이 익명화된 이유를 물으면 변호사가 설명해야 합니다. "도구가 표시했습니다"로는 충분하지 않습니다. "도구가 이 항목을 주민번호로 94% 점수를 매겼습니다. 우리 규칙은 85% 이상을 자동 익명화합니다." 이것은 충분합니다.

예/아니오 플래그는 그 답을 제공할 수 없습니다. 설정된 규칙이 있는 점수 도구는 할 수 있습니다. 참조: 익명화 방어: 법정에서의 AI 점수.

3단계 검토 시스템

가장 효과적인 설정은 엔터티 점수에 따른 세 단계를 사용합니다.

1단계 — 자동 처리 (85% 이상):

고확신도 형식에 일치하는 항목 (주민번호, IBAN, 의료 기록 번호)
인간 단계 없이 자동 익명화
로그가 엔터티 유형, 점수, 방법, 시간을 기록
예: "571-44-9283"이 주민번호로 97% — 자동 익명화

2단계 — 인간 검토 (50~85%):

PII일 수 있지만 판단이 필요한 항목
검토자에게 전달되어 승인, 거부 또는 재분류
로그가 엔터티 유형, 점수, 검토자 ID, 결정, 시간을 기록
예: 기술 문서의 "김철수"가 67% — 검토자가 이름 확인 — 익명화

3단계 — 참고 제안만 (50% 미만):

팁으로 표시된 저확신도 항목
자동 익명화되지 않음; 검토자가 조치 또는 건너뜀
로그가 엔터티 유형, 점수, 검토자 선택을 기록
예: 제품 문서의 "스미스"가 42% — 검토자가 회사명으로 확인 — 익명화 안 함

2단계만 인간 작업이 필요합니다. 세 단계 모두 감사 기록을 생성합니다.

점수가 구성되는 방식

PII 도구는 신호를 조합하여 엔터티당 하나의 숫자를 생성합니다.

정규식 패턴. 주민번호 형식의 정확한 일치는 높은 기본 점수를 받습니다. 부분 일치는 더 낮은 점수를 받습니다.

모델 출력. 개체명 인식 모델은 클래스당 확률을 할당합니다. PERSON에 대한 0.93 점수는 고확신도 결과를 제공합니다.

맥락 신호. 엔터티 주변 텍스트가 점수를 조정합니다. "내 주민번호는 571-44-9283입니다"는 점수를 올립니다. "제품 코드 571-44-9283"은 낮춥니다.

앙상블 규칙. 시스템은 설정된 가중치로 정규식, 모델, 맥락 신호를 조합합니다. 최종 숫자는 모든 증거를 반영합니다.

그 숫자가 워크플로우의 모든 임계값 결정을 구동합니다. 예/아니오 도구의 오탐에 대해서는 다음을 참조하세요: PII 도구의 오탐 세금.

보험 청구: 실제 사례

보험 파일은 명확한 PII — 보험계약자 이름, 주소, 주민번호 — 와 맥락 의존적 데이터: 증인 이름, 회사 이름, 손해사정인 서명이 혼재합니다.

예/아니오 도구는 모든 이름을 익명화(회사에 잘못)하거나 증인 이름을 놓칩니다(위험). 점수화된 도구는 각 항목을 개별적으로 처리합니다.

"보험계약자 주민번호" 레이블이 있는 주민번호 96% — 자동 익명화
PERSON으로 태그된 보험계약자 이름 91% — 자동 익명화
ORG로 태그된 계약업체 회사 78% — 검토됨 — 검토자가 익명화 거부
PERSON으로 태그된 증인 이름 82% — 검토됨 — 검토자가 승인
PERSON으로 태그된 손해사정인 이름 71% — 검토됨 — 검토자가 승인 (제3자 데이터)

각 결정에는 수치적 근거가 있습니다. 감사 추적이 완전합니다.

컴플라이언스 기록 구축

GDPR 제5조(1)(f)와 HIPAA 보안 규정에서 점수화된 도구는 자동으로 기록을 생성합니다.

엔터티 수준 감사 기록은 엔터티 유형, 점수, 결정 유형(자동 또는 수동), 검토자 ID, 시간을 캡처합니다. 데이터 당국 문의에 대한 CSV 내보내기가 가능합니다.

임계값 기록은 현재 설정과 모든 변경 사항을 문서화합니다. 각 변경에는 누가, 언제, 왜 변경했는지 포함됩니다. 이는 관리되고 의도적인 정책을 보여줍니다.

통계 보고서는 엔터티 유형별 탐지 비율, 2단계 검토 비율, 재정의 비율을 다룹니다. "통제 수단을 보여주십시오"라는 데이터 당국에 답합니다.

HIPAA 감사 추적 지침은 다음을 참조하세요: 설명 가능한 익명화: HIPAA 감사.

예/아니오 플래그는 추측입니다. 점수는 증거입니다.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

무료 체험 시작 기능 보기

이진 PII 탐지가 컴플라이언스에 실패하는 이유