By · Last updated 2026-06-05

ブログに戻るテクニカル

Presidio誤検出: 精度問題

Presidioが生成する誤検出(false positives)の実際の精度。本番環境でのカスタマイズの必要性。

June 5, 20267 分で読めます
Presidio precisionfalse positivesNER accuracyPII detection qualityhybrid recognizer

Presidioの22.7%精度問題

PII検出における偽陽性は実際の損害をもたらします。ツールが「人名」として検出したもののうち77.3%が実際の人名でない場合、プライバシーを保護しているのではなく、データを破壊しているのです。

2024年のベンチマーク調査が、ビジネス文書においてMicrosoft Presidioのデフォルトのお NERモデルをテストしました。テストには財務報告書、顧客書簡、製品ドキュメント、サポートチケットが含まれました。結果:名前検出の精度は22.7%でした。

この数字は注目に値します。検出された100件のうち23件が実際の個人名(正解)です。残りの77件が偽陽性 — 製品ラベル、ブランド用語、または都市ラベルです。

4件中3件の検出が誤りです。これは軽微なキャリブレーション問題ではありません。ビジネス文書処理に対して機能しないツールです。

なぜこれが起きるか

PresidioはデフォルトでspaCyのen_core_web_lgモデルを使用します。このモデルはニューステキストで学習しました。ニュースでは、ほとんどの固有名詞は実際の人物または場所です。

ビジネス文書は異なります。

個人名のように見える製品ラベル。 「Apple iPhone 15 Proの出荷記録」はPERSONとしてフラグされます。「Samsung Galaxy Tab」や「Cisco Meraki導入」も同様です。

名前に似た部分を持つ企業名。 「Johnson Controls四半期業績」では「Johnson」がPERSONとしてフラグされます。「Goldman Sachsポートフォリオ」も同じエラーを引き起こします。

人名検出を引き起こす地名ラベル。 「Victoria Harbourプロジェクト」は「Victoria」をPERSONとしてフラグします。「Santiagoハブ」は同様に「Santiago」をフラグします。

このモデルは「Apple」(企業)と「Apple Smith」(個人)を区別するコンテキストを持ちません。このギャップがほとんどの偽陽性の根本原因です。ニューステキストは固有名詞を人物や場所として扱うよう学習しました。ビジネステキストはこのルールを常に破ります。

下流への影響

あるデータ分析会社が顧客アンケートを共有する前にPresidioを使ってクリーニングしました。監査で4つの問題が発見されました。第一に、アンケートの40%で製品ラベルが誤って削除されていました。第二に、都市ラベルがすべての回答から削除されていました。第三に、ブランド言及が分析セットから削除されていました。第四に、特定製品に関する感情が読み取れなくなっていました。

分析チームはすべての製品参照が削除された編集済みテキストを受け取りました。元のアンケートにはiPhone ProとAppleの充電器が記載されていました。その意味は失われました。

この会社はプライバシーをより保護していたわけではありませんでした。コンプライアンスを得ることなくデータを破壊していたのです。監査後にPresidioは置き換えられました。

検出品質が規制上の立場に与える影響については、コンプライアンス概要をご覧ください。

より良いアプローチ:ハイブリッド検出

この問題はPresidioに固有ではありません。コンテキストなしのトークンレベルNERは常にこの問題を抱えます。解決策はコンテキスト認識型検出です。

トランスフォーマーが助ける理由: XLM-RoBERTaのようなモデルは文全体を読みます。「Appleが業績を発表した」→ Appleは企業です。「Apple Smithがチームに加わった」→ Appleは名前です。コンテキストがどちらであるかを示します。

これにより高いリコールを維持しながら精度が向上します。以下の比較をご覧ください。

アプローチ精度リコール
Presidioデフォルトのお NER22.7%~85%
正規表現のみ~95%~40%
ハイブリッド(正規表現 + NLP + トランスフォーマー)~85%~80%

ハイブリッドアプローチは85%の精度に達します。これは15%の偽陽性率を意味します。77.3%よりもはるかに優れています。ビジネス文書では、このギャップが重要です。

ハイブリッドスタックは4つのステップで構成されます:

  1. 正規表現層: 構造化されたIDを検出します — メール、電話番号、社会保障番号、IBAN。フォーマットは固定されているため偽陽性は少ないです。これが最初に実行されます。

  2. NLP層(spaCy): 人物、企業、場所の標準NER。高いリコール、低い精度。

  3. トランスフォーマー層(XLM-RoBERTa): 文の完全なコンテキストを使って各NLP結果を再スコアリングします。製品コンテキストの「Apple」はエンティティスコアを失います。苦情テキストの「John」はスコアを得ます。

  4. 信頼度しきい値: 設定されたスコアを超えたものだけが出力に渡されます。分析ユースケースではしきい値を上げます。HIPAAの匿名化では下げます。

切り替え後の結果

分析会社はハイブリッド検出に切り替えました。改善は明確でした。製品ラベルの偽陽性は40%から3%に低下しました。都市ラベルの偽陽性はほぼゼロになりました。実際の個人識別子のリコールは~82%を維持し、85%から若干低下しましたが精度は大幅に改善しました。

アンケートは再び利用可能になりました。「iPhone」「Apple」「Samsung」「Chicago」がテキストに残りました。苦情コンテキストの顧客名は正しく匿名化されました。

ハイブリッド検出はより多くの計算を必要とします。大規模なジョブでは実行時間が少し長くなります。ほとんどのビジネスユースケースでは、精度の向上はそのコストに見合います。この会社は再び分析を実行できるようになりました。それがアンケートデータの目的でした。

検出アプローチの詳細については、セキュリティ概要をご覧ください。

高い偽陽性率が許容される場合

場合によってはリコールを精度より優先します。

HIPAA Safe Harbor: 真の陽性を見逃すことは違反です。実際のPHIを見逃さないなら10%の偽陽性率は許容されます。過剰除去は不十分な除去より安全です。

法的レビュー: 特権を持つ連絡先を見逃すと弁護士特権が失われる可能性があります。偽陽性はレビューが必要ですが法的責任は生じません。

ビジネス分析: 過剰除去はコンプライアンスの利益なしにデータを破壊します。ここでは精度がより重要です。高い信頼度しきい値を持つハイブリッドアプローチを使用します。これによりブランドラベルと都市用語が出力に残ります。実際の人名のみが削除されます。

適切なバランスはユースケースによって異なります。しきい値を設定できるツールが制御を与えます。単一のデフォルトがすべてのコンテキストに機能することはありません。

しきい値と検出モードに関するよくある質問についてはFAQをご覧ください。

結論

22.7%の精度率は、4件中3件の検出が誤りであることを意味します。ビジネス文書では、これにより出力が分析に使えなくなります。また、コンプライアンスに対する偽りの安心感を与えます。

ハイブリッド検出はこれを解決します。正規表現、NLP、トランスフォーマースコアリングを組み合わせます。匿名化後もデータは有用です。実際の人名は削除されます。ブランドラベル、都市用語、製品識別子は残ります。

偽陽性の問題でPresidioを離れた場合、これが進むべき道です。同じモデルの新しい設定ではありません。ビジネス文書コンテキスト向けに構築された異なるアーキテクチャです。

情報源

Priva PII Benchmark 2024:Presidio精度評価。 VERIFIED-EXTERNAL.

Microsoft Presidio:サポートされているエンティティとモデルアーキテクチャ。 VERIFIED-EXTERNAL.

spaCy:en_core_web_lgのトレーニングデータと制限。 VERIFIED-EXTERNAL.

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.