By · Last updated 2026-03-23

블로그로 돌아가기기술

거짓 양성: ML 처리가 실패하는 이유

2024년 벤치마크에서 Presidio는 4,434개 샘플에서 13,536개의 거짓 양성 이름 탐지를 생성했습니다 — 대명사, 선박 이름, 국가를 인명으로 표시하며. 법률 및 의료 환경에서 이것이 어떤 비용을 발생시키는지 알아보세요.

March 23, 20268 분 읽기
Presidio false positive ratePII detection precisionautomated redaction costlegal document reviewhybrid PII detection

2026년 업데이트

22.7% 정밀도 문제

2024년 연구가 비즈니스 파일에서 Microsoft Presidio를 테스트했습니다. Presidio는 오픈소스 PII 도구입니다. 법무팀과 의료 그룹이 널리 사용합니다.

연구는 Presidio가 얼마나 자주 맞는지 측정했습니다. 인명으로 표시한 항목 중 실제로 인명인 것은 몇 개였나요?

답은 22.7%였습니다. 100개 플래그 중 약 77개가 틀렸습니다. 연구는 4,434개 샘플 파일에서 13,536개의 거짓 플래그를 계산했습니다.

오류는 무작위가 아니었습니다. 명확한 패턴을 따랐습니다:

  • 대명사가 인물로 표시됨(문장 처음의 "I")
  • 선박 레이블이 인물로 표시됨("ASL Scorpio")
  • 회사 레이블이 인물로 표시됨("Deloitte & Touche")
  • 국가 용어가 인물로 표시됨("Argentina", "Singapore")

이것들은 드문 엣지 케이스가 아닙니다. 일반 NLP 모델이 도메인별 텍스트를 만날 때마다 나타납니다.

거짓 플래그의 비용

법률 및 의료 업무에서 모든 플래그는 응답이 필요합니다. 팀들은 세 가지 옵션에 직면합니다. 세 가지 모두 실질적인 비용이 있습니다.

옵션 1: 사람이 모든 플래그를 확인합니다. 변호사와 전문가 시간은 시간당 200~800달러입니다. 22.7% 정확도에서 볼륨이 막대합니다. 이것은 규모에서 실행 가능하지 않습니다.

옵션 2: 검토를 건너뛰고 출력을 신뢰합니다. 이것도 위험합니다. "처리된" 항목의 77%가 민감하지 않을 때, 법적 위험을 만듭니다. 법원은 과다 처리로 변호사를 제재했습니다.

옵션 3: 점수 임계값을 높입니다. Presidio는 사용자가 약한 플래그를 삭제하도록 score_threshold를 설정할 수 있습니다. 2024년 DICOM 연구는 0.7에서 이를 테스트했습니다 — 상당히 높은 기준. 결과: 39개 DICOM 이미지 중 38개에 여전히 거짓 플래그가 있었습니다. 임계값이 도움이 됩니다. 근본 원인을 고치지는 않습니다.

일반 NLP가 여기서 어려움을 겪는 이유

Presidio 격차는 훈련 데이터와 실제 사용 사이의 불일치에서 옵니다.

법률 파일에는 대문자 용어가 가득합니다. 사건 이름, 법률 제목, 전시 코드가 모두 일반 모델에게 개인 데이터처럼 보입니다. 플래그를 표시합니다. 대부분은 개인 데이터가 아닙니다.

의료 파일에는 약물 이름, 장치 코드, 임상 약어가 추가됩니다. "Pt."는 환자를 의미합니다. "Dr."는 의사를 의미합니다. 이것들은 예측하기 어려운 방식으로 엔티티 탐지를 방해합니다.

하이브리드 탐지가 이것을 해결하는 방법

거짓 플래그 문제에는 명확한 해결책이 있습니다. 데이터 유형별로 작업을 분리하세요.

구조화된 데이터에 대한 패턴 규칙. 주민번호, 전화번호, 이메일 주소, ID 형식은 고정 규칙을 따릅니다. 문자열이 패턴에 맞고 체크 자리 테스트를 통과하거나 통과하지 않습니다. 유효한 규칙 세트에 대해 거짓 플래그가 없습니다.

자유 텍스트에 대한 언어 모델. 산문의 이름, 회사 레이블, 위치는 엄격한 구조가 없습니다. NLP는 규칙이 할 수 없을 때 이를 찾습니다. 신뢰도 점수와 맥락 확인이 거짓 플래그율을 줄입니다.

세밀한 제어를 위한 유형별 점수 설정. 과다 처리 위험을 감수할 수 없는 법무팀은 퍼지 일치에 대한 높은 임계값을 설정합니다. 높은 회상률이 필요한 연구팀은 낮은 임계값을 설정합니다.

결과는 Presidio 기본값보다 훨씬 적은 오류입니다. 규칙만으로는 너무 많이 놓치는 곳에서 회상률이 강하게 유지됩니다.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.