Presidio의 22.7% 정밀도 문제

PII 감지에서 오탐은 실질적인 피해를 일으킵니다. 도구가 "인명"으로 플래그하는 항목의 77.3%가 실제 이름이 아니라면, 프라이버시를 보호하는 것이 아닙니다. 데이터를 망가뜨리는 것입니다.

2024년 벤치마크에서 Microsoft Presidio의 기본 NER 모델을 비즈니스 문서에 대해 테스트했습니다. 테스트는 재무 보고서, 고객 서신, 제품 문서, 고객 지원 티켓을 포함했습니다. 결과: 이름 감지 정밀도 22.7%.

이 수치는 충격적입니다. 플래그된 100개 항목 중 23개만이 실제 개인 이름입니다. 나머지 77개는 오탐 — 제품 레이블, 브랜드 용어, 도시 레이블입니다.

감지된 항목 4개 중 3개가 틀립니다. 이는 사소한 보정 문제가 아닙니다. 비즈니스 문서 처리에 적합하지 않은 도구라는 의미입니다.

왜 이런 일이 일어나는가

Presidio는 기본적으로 spaCy의 en_core_web_lg 모델을 사용합니다. 이 모델은 뉴스 텍스트로 학습되었습니다. 뉴스에서 대부분의 고유 명사는 실제 사람이나 장소입니다.

비즈니스 문서는 다릅니다.

개인 이름처럼 보이는 제품 레이블. "Apple iPhone 15 Pro 출하 기록"이 PERSON으로 플래그됩니다. "Samsung Galaxy Tab"과 "Cisco Meraki 배포"도 마찬가지입니다.

이름과 유사한 부분을 포함한 기업 용어. "Johnson Controls 실적"에서 "Johnson"이 PERSON으로 플래그됩니다. "Goldman Sachs 포트폴리오"도 동일한 오류를 유발합니다.

인명 감지를 유발하는 지역 레이블. "Victoria Harbour 프로젝트"에서 "Victoria"가 PERSON으로 플래그됩니다. "Santiago 허브"에서 "Santiago"도 마찬가지입니다.

모델은 "Apple"(회사)과 "Apple Smith"(사람)를 구별할 맥락이 없습니다. 이 격차가 대부분의 오탐의 근원입니다. 뉴스 텍스트는 모델에게 고유 명사를 사람이나 장소로 처리하도록 가르쳤습니다. 비즈니스 텍스트는 이 규칙을 항상 깹니다.

하류 효과

한 데이터 기업이 Presidio를 사용하여 고객 설문 데이터를 공유 전에 정리했습니다. 감사에서 네 가지 문제가 발견되었습니다. 첫째, 설문의 40%에서 제품 레이블이 잘못 제거되었습니다. 둘째, 도시 레이블이 모든 응답에서 제거되었습니다. 셋째, 분석 데이터 세트에서 브랜드 언급이 지워졌습니다. 넷째, 특정 제품에 대한 감성을 파악할 수 없었습니다.

분석 팀은 모든 제품 참조가 제거된 비식별화된 텍스트를 받았습니다. 설문 원본에는 iPhone Pro와 Apple 충전기가 명시되어 있었습니다. 그 의미가 사라졌습니다.

기업은 프라이버시를 더 잘 보호하고 있었던 것이 아닙니다. 컴플라이언스 이득 없이 데이터를 망가뜨리고 있었습니다. 감사 후 Presidio를 교체했습니다.

감지 품질이 규제 준수 상태에 어떻게 영향을 미치는지 컴플라이언스 개요에서 확인하세요.

더 나은 접근법: 하이브리드 감지

이 문제는 Presidio에만 해당하는 것이 아닙니다. 맥락 없는 토큰 수준 NER은 항상 이 문제를 가집니다. 해결책은 맥락 인식 감지입니다.

트랜스포머가 도움이 되는 이유: XLM-RoBERTa와 같은 모델은 전체 문장을 읽습니다. "Apple이 실적을 발표했습니다" → Apple은 회사입니다. "Apple Smith가 팀에 합류했습니다" → Apple은 이름입니다. 맥락이 어떤 것인지 알려줍니다.

이는 재현율을 높이면서 정밀도를 향상시킵니다. 아래 비교를 참조하세요.

접근법	정밀도	재현율
Presidio 기본 NER	22.7%	~85%
정규식만 사용	~95%	~40%
하이브리드 (정규식 + NLP + 트랜스포머)	~85%	~80%

하이브리드 접근법은 85%의 정밀도에 도달합니다. 15%의 오탐율을 의미합니다. 77.3%보다 훨씬 낫습니다. 비즈니스 문서에서 이 격차는 중요합니다.

하이브리드 스택은 네 단계로 구성됩니다:

정규식 레이어: 구조화된 ID를 찾습니다 — 이메일, 전화번호, SSN, IBAN. 형식이 고정되어 있어 오탐이 드뭅니다. 이것이 먼저 실행됩니다.
NLP 레이어 (spaCy): 사람, 기업, 장소에 대한 표준 NER. 재현율이 높고 정밀도가 낮습니다.
트랜스포머 레이어 (XLM-RoBERTa): 전체 문장 맥락을 사용하여 각 NLP 결과를 재평가합니다. 제품 맥락의 "Apple"은 엔터티 점수를 잃습니다. 민원 텍스트의 "John"은 점수를 얻습니다.
신뢰도 임계값: 설정된 점수 이상의 결과만 출력으로 전달됩니다. 분석 사용 사례에서는 임계값을 높입니다. HIPAA 비식별화에서는 낮춥니다.

전환 후 결과

분석 기업이 하이브리드 감지로 전환했습니다. 성과가 명확했습니다. 제품 레이블 오탐이 40%에서 3%로 감소했습니다. 도시 레이블 오탐이 거의 0에 가깝게 떨어졌습니다. 실제 신원 재현율은 ~85%에서 ~82%로 소폭 하락했지만 정밀도가 크게 향상되었습니다.

설문 데이터가 다시 활용 가능해졌습니다. "iPhone", "Apple", "Samsung", "Chicago"가 텍스트에 남아 있었습니다. 민원 맥락의 고객 이름은 올바르게 제거되었습니다.

하이브리드 감지는 더 많은 컴퓨팅 자원이 필요합니다. 대용량 작업의 경우 실행 시간이 다소 길어집니다. 대부분의 비즈니스 사용 사례에서 정확도 향상이 그 가치가 있습니다. 기업은 다시 분석을 실행할 수 있었습니다. 그것이 설문 데이터의 본래 목적이었습니다.

보안 개요에서 당사의 감지 접근법에 대해 읽어보세요.

높은 오탐율이 허용되는 경우

일부 사례에서는 재현율이 정밀도보다 중요합니다.

HIPAA Safe Harbor: 실제 양성을 놓치면 위반입니다. 실제 PHI를 절대 놓치지 않는다면 10%의 오탐율도 허용됩니다. 과소 제거보다 과다 제거가 더 안전합니다.

법적 검토: 특권 관련 연락처를 놓치면 특권을 포기할 수 있습니다. 오탐은 검토가 필요하지만 법적 책임을 만들지 않습니다.

비즈니스 분석: 과다 제거는 컴플라이언스 이득 없이 데이터를 망가뜨립니다. 여기서는 정밀도가 더 중요합니다. 높은 신뢰도 임계값으로 하이브리드 접근법을 사용하세요. 브랜드 레이블과 도시 용어가 결과물에 남습니다. 실제 인명만 제거됩니다.

올바른 균형은 사용 사례에 따라 다릅니다. 임계값을 설정할 수 있는 도구가 제어권을 줍니다. 모든 맥락에 맞는 단일 기본값은 존재하지 않습니다.

임계값과 감지 모드에 대한 일반적인 질문은 FAQ를 참조하세요.

결론

22.7%의 정밀도는 감지된 항목 4개 중 3개가 틀렸다는 의미입니다. 비즈니스 문서의 경우, 분석에 사용하기 어려운 결과물을 만듭니다. 또한 컴플라이언스에 대한 거짓 안도감을 줍니다.

하이브리드 감지가 이를 해결합니다. 정규식, NLP, 트랜스포머 채점을 결합합니다. 데이터는 익명화 후에도 활용 가능합니다. 실제 인명은 제거됩니다. 브랜드 레이블, 도시 용어, 제품 식별자는 남습니다.

Presidio를 오탐 문제로 떠난 경우, 이것이 나아갈 길입니다. 동일한 모델의 새로운 설정이 아닙니다. 비즈니스 문서 맥락을 위해 구축된 다른 아키텍처입니다.

참고 자료

Priva PII 벤치마크 2024: Presidio 정밀도 평가. VERIFIED-EXTERNAL.

Microsoft Presidio: 지원되는 엔터티 및 모델 아키텍처. VERIFIED-EXTERNAL.

spaCy: en_core_web_lg 학습 데이터 및 한계. VERIFIED-EXTERNAL.

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

무료 체험 시작 기능 보기

Presidio 22.7% 정밀도 문제

Presidio의 22.7% 정밀도 문제

왜 이런 일이 일어나는가

하류 효과

더 나은 접근법: 하이브리드 감지

전환 후 결과

높은 오탐율이 허용되는 경우

결론

참고 자료

관련 기사

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

데이터 보호를 시작할 준비가 되셨나요?

Presidio 22.7% 정밀도 문제

Presidio의 22.7% 정밀도 문제

왜 이런 일이 일어나는가

하류 효과

더 나은 접근법: 하이브리드 감지

전환 후 결과

높은 오탐율이 허용되는 경우

결론

참고 자료

관련 기사

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

데이터 보호를 시작할 준비가 되셨나요?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow