보이지 않는 규정 준수 세금
PII 탐지 도구는 일반적으로 재현율로 평가됩니다 — 도구가 실제 PII를 얼마나 포착했는가? 그러나 정밀도 — 도구의 탐지가 실제 PII인 비율 — 는 도구 사용의 운영 비용을 결정합니다.
95% 재현율과 22.7% 정밀도를 가진 시스템은 실제 PII의 95%를 포착하지만, 탐지된 실제 PII 엔티티마다 3.4개의 허위 긍정을 플래그합니다. 10,000개의 실제 PII 엔티티가 포함된 데이터 세트에서 이 시스템은 10,000 / 0.227 ≈ 44,000개의 총 탐지를 생성하며, 이 중 34,000개는 수동 검토가 필요하거나 과도한 수정으로 이어지는 허위 긍정입니다.
이것이 바로 "허위 긍정 세금"입니다: 높은 재현율과 낮은 정밀도의 PII 탐지 시스템을 생산 규모로 사용하려는 모든 조직에 부과되는 운영 오버헤드입니다. 허위 긍정 세금은 직접 비용 — 수동 검토자 시간 — 과 간접 비용을 가지고 있습니다: 과도하게 수정된 문서는 관련 정보를 가리고, 작업 흐름을 느리게 하며, 자동화 시스템에 대한 신뢰를 감소시킵니다.
Presidio 이슈 #1071이 문서화한 내용
Microsoft Presidio GitHub 토론 #1071 (2024)은 특정하고 체계적인 허위 긍정 패턴을 문서화합니다. 체크섬 검증이 있는 TFN (세금 파일 번호) 및 PCI 인식기는 체크섬 알고리즘을 통과하는 비-PII 번호에 대해 1.0 — 최대 신뢰도 — 의 신뢰 점수를 생성합니다.
설계 문제: 컨텍스트 단어 확인 ("세금 파일 번호" 또는 "TFN"과 같은 단어가 탐지된 엔티티 근처에 나타나는지 확인)은 체크섬 단계 후에 적용됩니다. 체크섬을 통과한 숫자는 컨텍스트에 관계없이 1.0의 점수를 받습니다. 숫자 데이터가 포함된 문서 — 재무 스프레드시트, 과학 데이터 세트, 로그 파일 — 에서는 점수 임계값만으로 필터링할 수 없는 허위 긍정의 홍수를 생성합니다.
Presidio 커뮤니티의 별도 패턴 (GitHub 이슈 #999): 독일어 단어 분할은 이름 및 위치 엔티티에 대한 허위 긍정을 생성합니다. "Bundesbehörde" (연방 당국)와 같은 독일어 복합어 또는 일반적인 독일어 용어는 잘못 분할되어 개인 이름으로 탐지될 수 있습니다.
22.7% 정밀도 문제
Alvaro 외 (2024)는 혼합 언어 기업 데이터 세트에서 Presidio 기본 설정을 평가하고 22.7% 정밀도를 발견했습니다 — 이는 실제 기업 문서에서 Presidio 탐지의 4개 중 1개도 실제 PII에 해당하지 않음을 의미합니다. 이 수치는 실무자의 현장 경험과 일치합니다: 재현율을 위해 조정된 Presidio는 생산에서 사용 불가능한 노이즈를 생성합니다.
2024년 DICOM 의료 이미징 메타데이터를 조사한 연구에서는 score_threshold=0.7를 설정했음에도 불구하고 39개의 DICOM 이미지 중 38개가 여전히 허위 긍정 엔티티를 가지고 있음을 발견했습니다. 하나의 문서 유형에 대한 허위 긍정을 제거하는 임계값은 다른 문서 유형에 대한 허위 부정을 생성합니다.
정밀도 문제는 Presidio에만 국한되지 않습니다 — 이는 다양한 문서 유형, 언어 및 데이터 형식에서 높은 재현율을 달성하면서도 높은 정밀도를 달성하는 데 내재된 어려움을 반영합니다. 문제는 고정된 임계값이 거래를 나타낸다는 것입니다: 높은 임계값은 허위 긍정을 줄이지만 허위 부정을 증가시키고; 낮은 임계값은 재현율을 증가시키지만 허위 긍정을 부풀립니다.
컨텍스트 인식 솔루션
임계값 조정의 대안은 컨텍스트 인식 신뢰 점수입니다. 엔티티 패턴 일치에만 기반하여 신뢰를 부여하는 대신, 컨텍스트 인식 점수는 컨텍스트 단어가 근처에 나타날 때 신뢰를 높이고, 컨텍스트가 없을 때 허위 긍정을 억제합니다.
TFN 탐지의 경우: "세금 파일 번호", "TFN" 또는 "호주 세금"이 구성 가능한 창 내에 나타날 때 점수가 높아집니다. 근처에 컨텍스트 단어 없이 TFN 체크섬을 통과한 숫자는 검토 임계값 아래로 떨어지는 감소된 신뢰 점수를 받습니다.
다국어 허위 긍정의 경우: 특정 언어에 고유한 엔티티 유형 (독일 세금 ID, 프랑스 NIR, 호주 TFN)은 해당 언어로 탐지된 문서에 한정될 수 있습니다. 영어 및 호주 영어 문서에만 적용된 TFN 탐지는 독일 문서에서 동일한 탐지가 실행될 때 발생하는 체계적인 허위 긍정을 제거합니다.
하이브리드 탐지의 세 번째 계층 — 변환기 기반 컨텍스트 모델 — 는 또 다른 계층을 추가합니다: 모델은 진정한 개인 이름 ("John Smith, 환자 ID 12345")과 허위 긍정 (우연히 이름 패턴과 일치하는 제품 식별자)을 구별하기 위해 전체 주변 컨텍스트를 평가합니다.
출처: