블로그로 돌아가기기술

허위 긍정 문제: 순수 ML 편집이 시간당 $800의 비용이 드는 이유와 해결 방법

2024년 벤치마크에서는 Presidio가 4,434개의 샘플에서 13,536개의 허위 긍정 이름 탐지를 생성하여 인칭 대명사, 선박 이름 및 국가를 인명으로 잘못 표시했습니다. 변호사 시간당 $200–$800의 비용으로, 이 정밀도 문제는 비용이 많이 듭니다.

March 23, 20268 분 읽기
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

생산에서의 22.7% 정밀도 문제

2024년 Microsoft Presidio에 대한 벤치마크 연구 — 법률 기술, 의료 및 기업 데이터 보호 애플리케이션에 사용되는 오픈 소스 PII 탐지 엔진 — 에서 비즈니스 문서 맥락에서 인명 탐지에 대한 22.7% 정밀도를 발견했습니다.

정밀도는 긍정적인 식별의 정확성을 측정합니다: 도구가 "인명"으로 표시한 항목 중 실제로 인명인 항목의 비율입니다. 22.7%에서, 약 100개 항목 중 77개가 허위 긍정입니다.

벤치마크에서는 4,434개의 문서 샘플에서 13,536개의 허위 긍정 이름 탐지를 기록했습니다. 허위 긍정에는 다음이 포함되었습니다:

  • 인칭 대명사가 인명으로 표시됨 (문장의 시작에 나타나는 "I")
  • 선박 이름이 인명으로 표시됨 ("ASL Scorpio")
  • 조직 이름이 인명으로 표시됨 ("Deloitte & Touche")
  • 국가 이름이 인명으로 표시됨 ("Argentina," "Singapore")

이들은 변별 사례가 아닙니다. 이는 혼합 코퍼스에서 훈련된 범용 NLP 모델이 모델이 변별하도록 훈련되지 않은 맥락에서 고유 명사가 나타나는 도메인 특정 문서 유형에 적용될 때 나타나는 체계적인 패턴입니다.

대규모 허위 긍정의 비용 구조

법률 및 의료 환경에서 허위 긍정은 무료가 아닙니다. 표시된 각 항목은 처리해야 합니다: 플래그를 확인하거나 거부하기 위한 인간 검토, 또는 허위 긍정을 수정하지 않고 자동 처리하는 것입니다.

옵션 1: 표시된 모든 항목에 대한 인간 검토. 변호사 또는 전문가 시간당 $200에서 $800의 비용으로, 22.7% 정밀도 시스템의 허위 긍정을 검토하는 것은 대규모에서 경제적으로 불가능합니다. 10,000개의 문서 생산에서 문서당 100개의 표시된 항목이 22.7% 정밀도로, 약 77,300개의 항목이 인간 검토를 요구합니다. 항목당 5분 소요 시 시간당 $300로, 이는 6,442시간의 검토 시간 — 약 $1.9 백만입니다.

옵션 2: 수동 검토를 건너뛰고 자동 처리를 수용. 결과는 77%의 "편집된" 항목이 실제로 민감하지 않았던 생산을 초래하여 과도한 편집 책임(근거 없이 보류된 발견 가능한 콘텐츠)을 발생시키고, 문서 유용성을 파괴하며, 잠재적으로 제재를 유발할 수 있습니다.

옵션 3: 점수 임계값. Presidio는 신뢰도 임계값을 설정하여 신뢰도 임계값 이상인 항목만 플래그하여 허위 긍정을 줄일 수 있습니다. 2024년 DICOM 의료 이미징 문서에 대한 벤치마크 연구에서는 score_threshold=0.7 — 상대적으로 공격적인 정밀도 필터 — 를 사용했음에도 불구하고 39개의 DICOM 이미지 중 38개가 여전히 허위 긍정 엔티티를 포함했습니다. 점수 임계값은 허위 긍정 문제를 줄이지만 순수 ML 탐지의 허위 긍정을 제거하지는 않습니다.

순수 ML이 도메인 특정 문서에서 실패하는 이유

Presidio의 허위 긍정 패턴은 도메인 특정 맥락에서 범용 NLP 모델의 근본적인 한계를 반영합니다:

법률 문서에는 전문 고유 명사가 포함되어 있습니다 — 사건 이름, 법령 이름, 전시 지정 — 이들은 인명과 표면 수준의 패턴을 공유합니다. 일반 텍스트에서 훈련된 모델은 대문자로 시작하는 고유 명사가 종종 인명이라는 것을 배웁니다. 법률 문서에는 인명이 아닌 수백 개의 대문자 고유 명사가 포함되어 있습니다.

의료 문서에는 약물 이름, 기기 이름 및 이름 약어와 유사한 문자 시퀀스를 포함하는 절차 코드가 포함되어 있습니다. 임상 텍스트에는 이름 탐지와 예측할 수 없는 방식으로 상호작용하는 약어(예: "Pt."는 환자, "Dr."는 의사)가 포함되어 있습니다.

재무 문서에는 개인 식별자와 패턴을 공유하는 제품 이름, 엔티티 이름 및 식별자 코드가 포함되어 있습니다.

도메인 특정 조정은 이러한 패턴을 해결하지만, 데이터 세트를 미세 조정하고 문서 유형이 진화함에 따라 지속적인 유지 관리에 상당한 투자가 필요합니다.

하이브리드 아키텍처 솔루션

허위 긍정 문제는 구조적으로 해결할 수 있으며, 구조화된 데이터(정규 표현식이 100% 정밀도를 제공하는 곳)와 맥락 데이터(ML이 보정된 신뢰도로 패턴 인식을 제공하는 곳)를 분리하는 하이브리드 탐지를 통해 가능합니다.

구조화된 식별자를 위한 정규 표현식: SSN, 전화번호, 이메일 주소, 신용 카드 번호, 국가 ID 형식, 은행 계좌 번호. 이러한 형식은 결정적입니다 — 문자열이 패턴과 일치하고 체크섬 유효성 검사를 통과하거나 통과하지 않습니다. 합법적인 구현에 대해 허위 긍정이 없습니다.

비구조적 텍스트에서의 맥락 엔티티를 위한 NLP: 인명, 조직 이름, 위치. NLP 모델은 구조적 패턴이 부족한 엔티티에 대한 리콜을 제공합니다. 신뢰도 점수 및 맥락 단어 요구 사항은 허위 긍정을 줄입니다.

엔티티 유형별 임계값 구성: 인명에 대해 90% 신뢰도 임계값을 설정하고 SSN에 대해 정규 표현식의 확실성(사실상 100%)을 사용하는 것은 도메인 특정 허위 긍정 허용치를 조정할 수 있게 합니다. 과도한 편집 위험을 감수할 수 없는 법률 팀은 더 높은 임계값을 설정하고, 최대한의 비식별 리콜을 추구하는 임상 연구 팀은 더 낮은 임계값을 설정합니다.

결과: 순수 패턴 매칭이 달성할 수 없는 리콜을 유지하면서 Presidio 기본값보다 훨씬 낮은 허위 긍정 비율을 기록합니다. 자동 편집 도구를 평가하는 법률 및 의료 조직에 대해, 정밀도-리콜 트레이드오프는 관리 가능하지만, 고정 시스템 동작이 아닌 구성 가능한 매개변수로 노출되는 도구와 함께할 때만 가능합니다.

출처:

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.