単一言語ツールに対抗する文書
スイスの製薬会社の雇用契約は、一つの言語で書かれているわけではありません。スイスには4つの公用語があります。スイスの組織が作成する文書は、通常、主要な契約本文にドイツ語を使用し、特定の規制条項にフランス語を使用し、国際標準設定のセクションに英語を使用します — 時には同じ段落内で。
ベルギーの会社の取締役会議事録には、オランダ語の報告とフランス語の正式決議、国際投資家向けの英語の要約セクションが含まれています。多国籍企業のデータ処理契約には、英語の技術仕様、ドイツ語のデータ主体の権利条項、フランス語のDPA連絡先情報があります。
これらは珍しい文書ではありません。これは、多言語市場で運営される多国籍組織の標準的な出力です。そして、単一言語のPII検出ツールは、これらに対して体系的に失敗します。
45%高い見逃し率
混合言語文書に対する単一言語と多言語のNERアプローチを比較した研究では、混合言語文書は単一言語文書に比べて単一言語のNERツールで45%高いPII見逃し率を引き起こすことがわかりました。
ギャップの原因はアーキテクチャにあります: ドイツ語のテキストで訓練された単一言語のNERモデルは、ドイツ語の名前パターン、ドイツ語の組織名の慣習、ドイツ語の住所構造を学習します。そのモデルが主にドイツ語の文書内でフランス語のセクションに遭遇すると、それは訓練分布の外で動作しています。そのセクション内のフランス語の人名、フランス語の住所、フランス語の組織識別子は、検出精度が低下する対象となります — モデルが不適切に訓練されているからではなく、そのセクションのために間違った言語で訓練されているからです。
追加の発見: EUの企業の72%が同時に3つ以上の言語で文書を処理している (EDPB 2024)、そして多言語のHR文書は単一言語の同等品よりもページあたり67%多くのPIIを含む (Gartner 2024)。高いPII密度と高い見逃し率の組み合わせは、多言語のHR、法務、商業文書を処理する組織におけるコンプライアンスギャップを悪化させます。
言語の境界が検出失敗を生む方法
失敗は均一ではありません。言語の境界 — セクションが一つの言語から別の言語に移行する場所 — でのPIIは特に脆弱です。
雇用契約には、次のような条項が含まれているかもしれません: "Der Arbeitnehmer (Employee: Jean-Pierre Dupont, né le 15 mars 1985 à Lyon) stimmt zu..." — ドイツ語の文構造とフランス語の名前および生年月日を混合しています。ドイツ語のNERモデルは、ドイツ語パターンの名前を期待する位置でフランス語の名前に遭遇し、正しく分類できない可能性があります。フランス語のモデルは、ドイツ語の文脈語を見て、周囲の文書構造を信頼性を持って特定できません。
Gartner 2024の観察によると、多言語のHR文書は単一言語の同等品よりもページあたり67%多くのPIIを含むため、この境界検出の失敗は特に重要です: HR文書は最も高いPII密度の文書タイプの一つであり、多言語組織によって混合言語形式で作成されます。
クロスリンガルトランスフォーマーソリューション
XLM-RoBERTa (クロスリンガル言語モデル - Roberta) は、この問題に対する異なるアーキテクチャアプローチを表しています。各言語ごとに別々のモデルを訓練するのではなく、XLM-RoBERTaは100の言語のテキストで同時に訓練されます。このモデルは、エンティティ認識タスクが言語間でパターンを共有することを学びます — 人名と周囲の文脈語との構造的関係は、特定の単語が異なっていても、ドイツ語、フランス語、英語で類似しています。
混合言語文書に対して、XLM-RoBERTaのクロスリンガルアーキテクチャは、モデルが文書の境界で言語モデルを「切り替える」必要がないことを意味します。テキストを連続したシーケンスとして処理し、言語の移行に関係なく同じエンティティ認識機能を適用します。
これは完全な解決策ではありません — ドイツ語、フランス語、その他の言語の訓練データに対する言語特有のファインチューニングは、各言語に対して追加の精度を提供します。しかし、クロスリンガルのベースラインは、単一言語モデルが不均一に扱う言語の境界を超えた信頼できる検出を提供します。
スイス、ベルギー、及びその他の多国籍企業の文書が日常的に言語の境界を越える場合、単一言語とクロスリンガルNERのアーキテクチャの違いは、コンプライアンスの結果に直接的に影響します: 単一言語ツールで言語の境界で見逃されたエンティティは、クロスリンガルアーキテクチャによって検出されます。
出典: