블로그로 돌아가기기술

프레시디오의 22.7% 정밀도 문제: 잘못된 긍정이 귀하의 익명화 결과를 파괴하는 이유

2024년 벤치마크에서 프레시디오의 개인 이름 인식기가 비즈니스 문서에서 22.7%의 정밀도를 달성하는 것으로 나타났습니다. 이는 탐지된 것의 77.3%가 잘못된 긍정임을 의미합니다. 제품 이름, 회사 이름 및 도시 이름이 실제 PII와 함께 삭제됩니다.

April 21, 20267 분 읽기
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

프레시디오의 22.7% 정밀도 문제: 잘못된 긍정이 귀하의 익명화 결과를 파괴하는 이유

PII 탐지에서 잘못된 긍정은 사소한 불편이 아닙니다. 도구가 "개인 이름"으로 플래그하는 것의 77.3%가 실제 개인 이름이 아닐 때, 귀하는 개인 정보를 보호하는 것이 아니라 데이터를 파괴하고 있는 것입니다.

2024년 마이크로소프트 프레시디오의 기본 NER(명명된 개체 인식) 모델에 대한 벤치마크 연구는 비즈니스 문서 맥락에서의 정밀도를 평가했습니다: 재무 보고서, 고객 서신, 제품 문서 및 지원 티켓. 결과: 개인 이름 탐지에 대한 22.7%의 정밀도.

즉, 개인 이름으로 플래그된 100개의 탐지 중:

  • 23개는 실제 개인 이름입니다 (정확히 탐지됨)
  • 77개는 잘못된 긍정입니다 (제품 이름, 회사 이름, 장소 이름, 브랜드 언급)

왜 이런 일이 발생하는가

프레시디오의 기본 개인 이름 인식기는 NER을 위해 spaCy의 en_core_web_lg 모델을 사용합니다. 이 모델은 주로 뉴스 텍스트에서 훈련되었습니다 — 대부분의 고유 명사가 사실상 뉴스 기사에서 논의되는 사람, 조직 또는 장소입니다.

비즈니스 문서는 다릅니다:

개인 이름처럼 보이는 제품 이름:

  • "Apple iPhone 15 Pro 배송 기록..." → PERSON으로 플래그됨
  • "Samsung Galaxy Tab" → PERSON으로 플래그됨
  • "Cisco Meraki 배포" → PERSON으로 플래그됨

개인 이름 구조를 가진 회사 이름:

  • "Johnson Controls 분기 결과" → "Johnson"이 PERSON으로 플래그됨
  • "Goldman Sachs 포트폴리오" → "Goldman"이 PERSON으로 플래그됨
  • "BlackRock 투자 논문" → PERSON으로 플래그됨

개인 NER을 유발하는 장소 이름:

  • "Victoria Harbour 개발" → "Victoria"가 PERSON으로 플래그됨
  • "Santiago 유통 허브" → "Santiago"가 PERSON으로 플래그됨

100개의 대문자로 된 고유 명사가 있는 비즈니스 문서에서, spaCy의 기본 모델은 "Apple" (회사)과 "Apple Smith" (개인)를 신뢰할 수 있게 구별할 수 있는 맥락 이해가 부족합니다.

하류 효과

고객 피드백 설문조사를 처리하는 데이터 분석 회사는 결과를 클라이언트 분석 팀과 공유하기 전에 익명화를 위해 프레시디오를 구현했습니다. 배포 후 감사:

  • 40%의 설문 응답에서 제품 이름이 잘못 삭제됨
  • 응답에서 언급된 도시 이름이 체계적으로 제거됨
  • 분석 맥락의 일부인 브랜드 언급이 익명화됨
  • 특정 제품에 대한 고객 감정이 분석할 수 없게 됨

분석 팀은 "[REDACTED] Pro를 사랑하지만 [REDACTED] 충전기가 고장났습니다"가 "iPhone Pro를 사랑하지만 Apple 충전기가 고장났습니다"로 대체된 데이터를 받고 있었습니다. 익명화는 설문이 수집된 분석 가치를 파괴했습니다.

회사는 개인 정보를 과도하게 보호하고 있던 것이 아니라, 준수를 달성하지 못한 채 유용성을 파괴하고 있었습니다. 감사 결과 후, 프레시디오는 교체되었습니다.

하이브리드 탐지 접근법

정밀도 문제는 프레시디오의 기본 모델에만 국한되지 않습니다 — 이는 맥락 없이 토큰 수준 NER의 고유한 한계입니다. 해결책은 맥락 인식 탐지가 필요합니다.

변환기 기반 모델 (XLM-RoBERTa): 다양한 텍스트에서 훈련된 대형 언어 모델은 맥락적 관계를 이해합니다. "Apple이 수익을 발표했습니다" → Apple은 회사입니다 (맥락적 단서: "수익 발표"). "Apple Smith가 팀에 합류했습니다" → Apple은 개인 이름입니다 (맥락적 단서: "팀에 합류").

맥락 인식 탐지는 정밀도를 극적으로 개선하면서 회수를 유지합니다:

접근법정밀도회수
프레시디오 기본 NER22.7%~85%
정규 표현식 전용~95%~40%
하이브리드 (정규 표현식 + NLP + 변환기)~85%~80%

하이브리드 접근법은 완벽한 정밀도를 달성하지는 못합니다 — 그것은 인간 검토가 필요합니다. 그러나 85%의 정밀도는 77.3%가 아닌 15%의 잘못된 긍정 비율을 의미합니다. 비즈니스 문서 처리의 경우, 이는 유용한 출력과 손상된 데이터 간의 차이입니다.

하이브리드 스택 작동 방식:

  1. 정규 표현식 레이어: 구조화된 식별자(SSN, 이메일 주소, 전화번호, IBAN)에 대한 높은 정밀도 탐지. 이러한 형식은 기계가 읽을 수 있으므로 잘못된 긍정은 드뭅니다. 첫 번째로 실행되어 구조화된 PII를 거의 100%의 정밀도로 제거합니다.

  2. NLP 레이어 (spaCy): 개인 이름, 조직, 위치에 대한 표준 NER. 초기 탐지 세트를 제공합니다. 높은 회수, 낮은 정밀도.

  3. 변환기 레이어 (XLM-RoBERTa): NLP 탐지의 맥락적 재평가. NLP에 의해 플래그된 개체는 전체 문장 맥락으로 재평가됩니다. 제품 맥락의 "Apple"은 개인 개체 점수를 잃습니다. 고객 불만 주제 이름으로서의 "John"은 개인 개체 점수를 얻습니다.

  4. 신뢰도 임계값 설정: 조정된 신뢰도 임계값 이상인 탐지만 익명화로 전달됩니다. 임계값은 조정 가능 — 비즈니스 분석과 같은 정밀도가 중요한 사용 사례에는 더 높은 임계값, HIPAA 비식별화와 같은 준수가 중요한 사용 사례에는 더 낮은 임계값.

실제 영향: 설문 분석 회복

하이브리드 탐지로 전환한 후:

  • 제품 이름 잘못된 긍정: 40%에서 3%로 감소
  • 도시 이름 잘못된 긍정: 도시 언급의 100%에서 거의 0%로 감소
  • 실제 개인 이름 탐지: ~82% 회수로 유지 (정밀도 향상을 위해 85%에서 약간 감소)

이제 설문조사가 사용 가능합니다. "iPhone", "Apple", "Samsung", "Chicago"가 보존됩니다. 불만 특정 맥락의 고객 이름이 올바르게 익명화됩니다.

트레이드오프: 하이브리드 탐지는 계산적으로 더 집약적입니다. 대규모 처리의 경우, 이는 약간 더 긴 처리 시간으로 이어집니다. 대부분의 비즈니스 사용 사례에서는 정밀도 향상이 비용을 초과하는 가치가 있습니다.

더 높은 잘못된 긍정 비율을 수용해야 할 때

일부 준수 맥락에서는 정밀도보다 회수를 선호합니다:

HIPAA 안전 항구 비식별화: 실제 긍정(개인 이름을 제거하지 않음)을 놓치는 것은 HIPAA 위반입니다. 10%의 잘못된 긍정 비율은 실제 PHI의 거의 100% 회수를 보장하는 경우 허용됩니다. 과도한 익명화가 부족한 익명화보다 바람직합니다.

고위험 법률 문서 검토: 특권 변호사-고객 이름을 놓치는 것은 특권을 포기할 수 있습니다. 잘못된 긍정은 변호사 검토를 요구하지만 법적 책임을 생성하지 않습니다.

일반 비즈니스 분석: 과도한 익명화는 준수 이점을 달성하지 못한 채 데이터를 손상시킵니다. 정밀도가 더 중요합니다. 보수적인 임계값으로 하이브리드 탐지를 사용하십시오.

적절한 정밀도-회수 트레이드오프는 사용 사례에 따라 다릅니다. 임계값 구성을 허용하는 도구는 각 맥락에 맞는 올바른 결과를 최적화할 수 있는 유연성을 제공합니다.

결론

22.7%의 정밀도는 귀하의 PII 도구가 "개인 이름"이라고 부르는 것 중 4개 중 3개가 실제 개인 이름이 아님을 의미합니다. 비즈니스 문서의 경우, 이 정밀도 수준은 익명화 출력을 분석 목적으로 사용할 수 없게 만들며 준수에 대한 잘못된 확신을 제공합니다.

정규 표현식, NLP 및 변환기 기반 맥락 점수를 결합한 하이브리드 탐지는 익명화된 데이터가 분석적으로 유용하게 유지될 수 있도록 정밀도를 개선합니다. 잘못된 긍정 문제로 인해 프레시디오를 포기한 조직에 이 아키텍처는 해결책입니다 — 동일한 모델의 다른 구성 설정이 아닙니다.

출처:

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.