2026년 업데이트
22.7% 정밀도 문제
2024년 연구가 비즈니스 파일에서 Microsoft Presidio를 테스트했습니다. Presidio는 오픈소스 PII 도구입니다. 법무팀과 의료 그룹이 널리 사용합니다.
연구는 Presidio가 얼마나 자주 맞는지 측정했습니다. 인명으로 표시한 항목 중 실제로 인명인 것은 몇 개였나요?
답은 22.7%였습니다. 100개 플래그 중 약 77개가 틀렸습니다. 연구는 4,434개 샘플 파일에서 13,536개의 거짓 플래그를 계산했습니다.
오류는 무작위가 아니었습니다. 명확한 패턴을 따랐습니다:
- 대명사가 인물로 표시됨(문장 처음의 "I")
- 선박 레이블이 인물로 표시됨("ASL Scorpio")
- 회사 레이블이 인물로 표시됨("Deloitte & Touche")
- 국가 용어가 인물로 표시됨("Argentina", "Singapore")
이것들은 드문 엣지 케이스가 아닙니다. 일반 NLP 모델이 도메인별 텍스트를 만날 때마다 나타납니다.
거짓 플래그의 비용
법률 및 의료 업무에서 모든 플래그는 응답이 필요합니다. 팀들은 세 가지 옵션에 직면합니다. 세 가지 모두 실질적인 비용이 있습니다.
옵션 1: 사람이 모든 플래그를 확인합니다. 변호사와 전문가 시간은 시간당 200~800달러입니다. 22.7% 정확도에서 볼륨이 막대합니다. 이것은 규모에서 실행 가능하지 않습니다.
옵션 2: 검토를 건너뛰고 출력을 신뢰합니다. 이것도 위험합니다. "처리된" 항목의 77%가 민감하지 않을 때, 법적 위험을 만듭니다. 법원은 과다 처리로 변호사를 제재했습니다.
옵션 3: 점수 임계값을 높입니다. Presidio는 사용자가 약한 플래그를 삭제하도록 score_threshold를 설정할 수 있습니다. 2024년 DICOM 연구는 0.7에서 이를 테스트했습니다 — 상당히 높은 기준. 결과: 39개 DICOM 이미지 중 38개에 여전히 거짓 플래그가 있었습니다. 임계값이 도움이 됩니다. 근본 원인을 고치지는 않습니다.
일반 NLP가 여기서 어려움을 겪는 이유
Presidio 격차는 훈련 데이터와 실제 사용 사이의 불일치에서 옵니다.
법률 파일에는 대문자 용어가 가득합니다. 사건 이름, 법률 제목, 전시 코드가 모두 일반 모델에게 개인 데이터처럼 보입니다. 플래그를 표시합니다. 대부분은 개인 데이터가 아닙니다.
의료 파일에는 약물 이름, 장치 코드, 임상 약어가 추가됩니다. "Pt."는 환자를 의미합니다. "Dr."는 의사를 의미합니다. 이것들은 예측하기 어려운 방식으로 엔티티 탐지를 방해합니다.
하이브리드 탐지가 이것을 해결하는 방법
거짓 플래그 문제에는 명확한 해결책이 있습니다. 데이터 유형별로 작업을 분리하세요.
구조화된 데이터에 대한 패턴 규칙. 주민번호, 전화번호, 이메일 주소, ID 형식은 고정 규칙을 따릅니다. 문자열이 패턴에 맞고 체크 자리 테스트를 통과하거나 통과하지 않습니다. 유효한 규칙 세트에 대해 거짓 플래그가 없습니다.
자유 텍스트에 대한 언어 모델. 산문의 이름, 회사 레이블, 위치는 엄격한 구조가 없습니다. NLP는 규칙이 할 수 없을 때 이를 찾습니다. 신뢰도 점수와 맥락 확인이 거짓 플래그율을 줄입니다.
세밀한 제어를 위한 유형별 점수 설정. 과다 처리 위험을 감수할 수 없는 법무팀은 퍼지 일치에 대한 높은 임계값을 설정합니다. 높은 회상률이 필요한 연구팀은 낮은 임계값을 설정합니다.
결과는 Presidio 기본값보다 훨씬 적은 오류입니다. 규칙만으로는 너무 많이 놓치는 곳에서 회상률이 강하게 유지됩니다.