BPOの言語格差
APACのサポートチームは多様な文字体系のチャットを処理します。タイのユーザーはタイ語で書きます。インドネシアのユーザーはバハサで書きます。ベトナムのユーザーはベトナム語で書きます。
これらのチャットログには個人情報が含まれます。氏名。電話番号。住所。ID番号。すべてローカルの文字体系で記録されます。
単一言語ツールはここで機能しません。そのモデルは欧米のテキストで訓練されました。名前検出器はラテン文字の名前パターンを学習しました。住所モデルは欧米の住所形式を学習しました。
タイ文字は単言語モデルには見えません。インドネシアの住所はラテン文字パターンと一致しません。ベトナム語の声調テキストはさらなる不一致を生みます。結果:非ラテン文字ログでの個人情報検出率はほぼゼロです。
APACのチャットの大半は英語ではありません。これはニッチな格差ではありません。大規模BPOにとって、これが標準です。
APACにおけるコンプライアンスリスク
これらの地域を三つのデータ保護法がカバーします。いずれも施行中です。いずれもAPAC顧客データを処理するBPO企業に適用されます。
タイランド PDPA: 2022年から施行。データ最小化、同意、セキュリティ管理を要求します。タイ語の氏名を含むサポートログはその対象範囲内です。
インドネシア PDPLaw: 居住者データを処理するすべての企業を対象とします。個人記録に対する適切なセキュリティ措置を要求します。
ベトナム PDPD: 2023年のベトナム令は、ベトナム居住者のデータを処理するあらゆる企業に適用されます。企業の所在地は関係ありません。
三者は一つの中核ルールを共有します:個人情報を見つけて保護する。そのルールは顧客が使用するあらゆる文字体系に適用されます。BPO業務への影響についてはコンプライアンス概要をご覧ください。
50万チャット問題
シンガポールのフィンテック企業が月50万件のサポートチャットを処理します。12のAPACの方言で顧客に対応します。法的義務はすべての50万件をカバーします。
その英語専用ツールは英語の部分のみをカバーします。
チャットの30%が英語だとします。そこでの精度が90%だとします。約135,000件のチャットが保護されます。残りの365,000件は個人情報がほぼ検出されないまま通過します。
これでチャットの73%が未保護のままになります。365,000件のチャットの手動レビューは実行不可能です。人件費だけでも非現実的です。自動化ツールは使用される実際の文字体系の組み合わせをカバーする必要があります。
多言語検出
XLM-RoBERTaは100以上の言語で訓練されたモデルです。名前、場所、企業が文字体系を越えてパターンを共有することを学習します。表面的なテキストが全く異なっていても機能します。
APACのカバレッジには四つの主要文字体系が含まれます:
バハサ・インドネシア — 名前、企業、場所を検出。タイ語 — 多言語転移によるベースライン個人情報検出。ベトナム語 — 声調文字対応のエンティティ検出。フィリピノ語 — タガログ語テキストのチャット対応。
Stanzaは既存の文字体系のモデルを追加します。二つのツールを合わせてAPACの文字体系全体をカバーします。文字体系ごとに個別ツールは不要です。設定手順についてはセキュリティガイドをご覧ください。
コンプライアンスへの影響は明確です。チャットの27%をカバーする代わりに、完全な多言語検出がすべてをカバーします。手動レビューキューは数十万件から少数のサンプルへ削減されます。
今なぜ重要なのか
タイランドPDPA、インドネシアPDPLaw、ベトナムPDPDはすべて施行中です。規制当局は企業が顧客の使用するあらゆる文字体系で個人情報を検出することを期待します。
単一言語ツールはその基準を満たしません。多言語モデルは満たします。幅広いAPACユーザー基盤を持つBPOにとって、この格差は重要です。法的リスクと法的保護の境界線です。