By · Last updated 2026-03-20

ブログに戻るGDPRおよびコンプライアンス

なぜあなたのPII検出ツールは英語話者に対してのみGDPR準拠なのか

ドイツのSteuer-ID(チェックサム付き11桁)は、米国のSSNとは構造が異なります。フランスのNIR番号は15桁です。ポーランドのPESELとスウェーデンのPersonnummerは独自の検証アルゴリズムを持っています。英語で訓練されたあなたのツールは、これらすべてを見逃します。

March 20, 20268 分で読めます
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

英語専用PIIツール:GDPRの盲点

GDPRに言語の優先順位はない

GDPRはあらゆる言語の個人データを対象とします。ドイツ語、フランス語、ポーランド語、スウェーデン語——すべてが同等に保護されます。見落とされたSteuer-IDは、見落とされた社会保障番号と同じ法的リスクをもたらします。法律は言語で区別しません。

ほとんどのPII検出ツールは区別します。

主要な商用・オープンソースツールは英語テキスト向けに作られています。エンティティ検出モジュールもそれを反映しています。米国の社会保障番号、米国の運転免許証、NANPの電話フォーマットには対応しています。非英語の国民識別番号に対するモジュールは精度が低く、メンテナンスも不十分で、実際の識別子を見落とすことが多いです。

EU加盟国全体で事業を展開する企業にとって、これはカバレッジのギャップを生み出します。ツールは検出が完了したと報告します。しかし、非英語の識別子はデータ内に残っています。これらは特定の国でGDPR上の露出が最も大きい識別子であることが多いです。

データ保護当局はこれを把握しています。監査人も確認します。英語の記録ではうまく機能するツールでも、ドイツ語やフランス語の記録で失敗すれば、コンプライアンスを満たしていません。クリーンなレポートではそれを変えることはできません。

国民識別子は構造が異なる

英語中心ツールと多言語ツールのギャップは、正規表現パターンを追加することで解決するものではありません。EUの国民識別子は構造的に非常に異なります。正しく検出するには国固有のロジックが必要です。

German Steuer-Identifikationsnummer(Steuer-ID): 11桁。Luhn式の変形に基づくチェックサムを使用します。汎用SSN正規表現では一致しません。11桁の任意の数字を対象とする正規表現はドイツの文書で誤検知を大量に生成します。

French NIR(Numéro d'inscription au répertoire): 15桁。フォーマットには性別、出生年、出生月、出生県がエンコードされています。さらに出生順序と2桁の管理キーも含まれます。正確な検出には管理キーの検証が必要です。

Swedish Personnummer: Luhnチェックデジットを含む10桁。1990年以前に生まれた人は-ではなく+のセパレータを使用します。これにより検出すべきフォーマットが変わります。

Polish PESEL: 11桁。生年月日、性別、加重和に基づくチェックデジットがエンコードされています。正確な検出にはフォーマット照合とチェックサム検証の両方が必要です。

これらは共通パターンの変形ではありません。それぞれ長さが異なります。それぞれ異なる検証方法を使用します。それぞれ異なる位置エンコードスキームでデータを格納します。英語で訓練されたNERモデルはフランス語のNIRを見ても国民識別子と認識しません。無視するか、誤って分類します。

実際のコンプライアンスリスク

欧州のBPOのコンプライアンス担当者を想像してください。ドイツ、フランス、ポーランド、オランダのデータを同時に処理しています。ツールはPII匿名化の成功を報告します。

しかし結果は完全ではありません。ドイツの記録のSteuer-IDは残ります。フランスの記録のNIR番号は残ります。ポーランドの記録のPESEL番号は残ります。これらのフォーマットに対するツールの検出モジュールは存在しないか、精度が不十分です。

後に、データセットは分析や研究パートナーへの提供に使用されます。データには再識別可能な国民識別子が依然として含まれています。GDPRの問題はツールの出力ログには表れません。データ主体のアクセス要求が届いたときに表面化します。データ保護当局の監査中に表面化する場合もあります。データ侵害の後に表面化する場合もあります。

ハイブリッド多言語アプローチと英語中心ツールを比較した研究では、明確な結果が得られました。ハイブリッド手法はヨーロッパのロケール全体でF1スコア0.60〜0.83を達成します。英語専用ツールは非英語の国民ID形式に対してゼロに近いスコアです。

これらのギャップがGDPR義務にどのように対応するかは、GDPRコンプライアンス概要をご参照ください。

完全なカバレッジに必要なもの

EU GDPRコンプライアンスのための真の多言語PII検出には3つの層が必要です。

言語ネイティブのspaCyモデルは、テキストの言語での意味的理解を提供します。ドイツ語テキストで訓練されたモデルは「Müller」が一般的なドイツ語の苗字であることを知っています。25の高リソースEU言語向けのモデルが存在します。

Stanza NLPモデルは、spaCyに含まれていない言語へのカバレッジを拡張します。これによりEUの言語コミュニティへのリーチが広がります。

クロスリンガルトランスフォーマーモデル(XLM-RoBERTa)は、言語をまたぐケースを処理します。フランス語の文中の名前は人名として認識されます。エンジンがその特定の名前で訓練されていなくても機能します。

国固有の検証を含む正規表現は構造化された国民識別子をカバーします。Steuer-ID、NIR、PESEL、Personnummerはそれぞれ独自のチェックサムロジックが必要です。これにより誤検知が削減されます。国の検証ルールに合格しない数字列は除外されます。

ギャップは構造的なものです。ワードリストや正規表現パターンを追加するだけでは改善は軽微です。EUの識別子カバレッジを最初から組み込むことが唯一の信頼できるアプローチです。

現在のツールを確認する

ベンダーにドイツ語、フランス語、ポーランド語、オランダ語の記録に対するF1スコアを求めてください。「複数言語をサポート」は多くの場合、ツールが最初に翻訳を使用することを意味します。それはネイティブスキャンではありません。GDPRコンプライアンスにはネイティブスキャンが必要です。

実際の国民IDサンプルでテストしてください。業務で扱う各IDタイプの10例でテストセットを作成します。Steuer-ID、NIR、PESEL、Personnummer。検出率を確認します。完全なF1テストよりも速く、ギャップを素早く明らかにします。

anonym.legalがこれらの要件にどのように対応しているかは、セキュリティとコンプライアンスページをご参照ください。エンティティタイプの定義については、エンティティリファレンスをご覧ください。

出典

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.