By · Last updated 2026-06-05

ブログに戻るGDPRおよびコンプライアンス

Presidio EU エンティティカバレッジギャップ GDPR

Presidioのデフォルトエンティティ検出が、EU国家識別子をカバーしていないギャップ分析。

June 5, 20267 分で読めます
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

PresidioはGDPRエンティティの220以上を見落とす:EUカバレッジのギャップ

2026年版に更新

Microsoft Presidioはデフォルトで約40のエンティティ認識器を含みます。米国向けの展開ではこれで十分です。SSN、米国パスポート、運転免許証、クレジットカード、メールアドレスをカバーします。

EU向けの展開では、ギャップは大きいです。GDPRはEU内のすべての個人データに適用されます。これはデータ主体の国籍に関係なく適用されます。EUチームにはPresidioが提供しない認識器が必要です。

Presidioが含むもの

デフォルトの認識器は4つのグループに分かれます。

米国中心の識別子:

  • 米国社会保障番号(SSN)
  • 米国パスポート番号
  • 米国運転免許証番号
  • 米国銀行口座番号
  • 米国ITIN
  • 米国医師免許番号

汎用識別子:

  • メールアドレス
  • 電話番号
  • IPアドレス
  • クレジットカード番号
  • 暗号通貨ウォレットアドレス
  • URL

テキストエンティティ(NERベース):

  • PERSON
  • LOCATION
  • ORGANIZATION
  • DATE_TIME

限定的な国際対応:

  • 英国NHS番号
  • 英国国民保険番号(NINO)
  • 一部の金融識別子

合計:約40の認識器。

EUチームが必要とするもの

金融識別子

IBANはほぼすべてのEUビジネス文書に登場します。支払い、請求書、給与計算に含まれます。IBANはISO 13616に準拠しています。Presidioにはデフォルトのiban認識器がありません。

ドイツのフィンテック企業を例にとります。すべての支払いファイルにIBANが含まれます。IBAN検出なしでは、ツールはクレジットカード番号のみを探します。EUの主要な支払い識別子が見落とされます。つまり、GDPRの対象となる重要なデータが検出されません。

国別税務識別番号

これらの識別子はPresidioのデフォルトライブラリに含まれていません:

  • ドイツのSteueridentifikationsnummer: 11桁の数字
  • フランスのNIR: 検証キー付き15桁
  • イタリアのCodice Fiscale: チェックサム付き16文字
  • スペインのNIF/NIE: 文字付き9文字
  • オランダのBSN: elfproef検証付き9桁

EU給与処理チームは多くの加盟国からのファイルを扱います。これらの認識器がなければ、それらの記録にある最も機密性の高い金融識別子を見落とします。

国別健康識別子

英国NHS番号はカバーされています。以下はカバーされていません:

  • フランスのNIR(健康IDとしても使用)
  • ドイツのKrankenkassennummer
  • イタリアのCodice Fiscale(健康IDとしても使用)
  • オランダのBSN(健康保険に使用)

EU内の医療機関はGDPRレベルの健康データ保護のためにこれらが必要です。

EU運転免許証

EU内の運転免許証は指令2006/126/ECの対象です。各加盟国には独自の形式があります。英数字の構造は国によって異なります。Presidioは米国の運転免許証認識器のみを持っています。EUの運転免許証はサポートされていません。そのため、EU運転免許証データは検出されずに処理されます。

VAT番号

EU VAT番号はすべてのB2B取引に登場します。形式:2文字の国コードに8〜12桁の英数字。Presidioには VAT認識器がありません。VAT番号は企業とその所有者を結びつけます。これらはGDPRの下での個人データです。

GDPRの義務の詳細については、GDPRコンプライアンスリソースをご覧ください。

カスタム認識器のコスト

EUチームがギャップを発見すると、カスタム認識器を開発します。作業量は積み重なります。

認識器1つあたりの時間(概算):

  • 形式の調査:1〜2時間
  • Pythonクラスの作成:2〜4時間
  • 正規表現と検証の実装:2〜4時間
  • コンテキスト語の追加:1〜2時間
  • テストの作成:2〜3時間
  • デプロイと確認:1〜2時間

これは認識器1つあたり9〜17時間です。これらは概算です。

例:ドイツのフィンテックが4つの認識器を必要とする場合。

IBAN、Steuer-ID、EU運転免許証、ドイツVAT。

  • 4つの認識器 × 13時間 = 52時間の作業
  • 時給€100で:約€5,200

これは最初の構築のみをカバーします。形式は時間とともに変わります。新しいエッジケースが出現します。PresidioのAPIアップデートで既存の認識器が壊れることがあります。各変更には開発者が必要です。継続的なコストは年々増加します。

マネージドライブラリ

anonym.legalはPresidioを285以上のエンティティタイプで拡張します。チームはライブラリを最新の状態に保ちます。EU識別子は初日から含まれています。

Presidioのデフォルトを超えるカバレッジ:

  • すべてのEU加盟国形式のIBAN
  • 加盟国の税務ID:Steuer-ID、NIR、Codice Fiscale、NIF/NIE、BSN、PESELなど
  • EU国別健康識別子
  • VAT番号(EU形式)
  • EU運転免許証形式
  • 欧州パスポート形式
  • 48の対応言語にわたるエンティティのバリアント

ドイツが税務ID形式を更新すると、サービスで更新が配信されます。チームからのプルリクエストは不要です。

ライブラリにない識別子については、カスタムエンティティビルダーでパターンを追加できます。Pythonコードは必要ありません。

更新と監査証跡の仕組みについては、セキュリティとコンプライアンスの詳細をご覧ください。

ドイツのフィンテックの事例

あるドイツのフィンテック企業が、顧客ファイル内のIBAN、BIC、Steuer-ID、Handelsregisternummernを検出する必要があります。

これら4つのタイプに対するPresidioのデフォルト検出率:0%。

デフォルトライブラリにはありません。これは低精度ではありません。ゼロ検出です。ツールは部分的に見落とすのではありません。まったく認識しないのです。

コスト比較:

アプローチ初年度コスト
カスタム認識器(4 × 13時間 × €100/時)約€5,200+継続的な保守
マネージドエンティティライブラリ(Proプラン)€180/年、4つすべて対応

差は初年度で約29倍です。その後は毎年、カスタム開発の保守コストが積み重なります。マネージドサービスの価格は一定のままです。

まとめ

Presidioのデフォルトは米国のユースケースには適しています。GDPRの下でのEU展開には不十分です。ギャップを埋めるにはカスタム認識器の開発かマネージドサービスが必要です。

コンプライアンスが必須でエンジニアリングの時間が限られているEUチームには、既製のEUエンティティライブラリが50時間以上の開発プロジェクトを不要にします。ファイルは初日から処理できます。事前にカスタムコードは不要です。

ソース

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.