ブログに戻るテクニカル

APACデータプライバシー: なぜあなたの英語PIIツールはタイ、インドネシア、ベトナムの顧客に失敗するのか

シンガポールのフィンテック企業が、12のAPAC言語で月間50万件のサポートチャットを処理する中、英語のみのツールが非英語のやり取りの60%でPIIを見逃したことがわかりました。PDPAは分析前の匿名化を要求します。

March 24, 20267 分で読めます
APAC PII detectionThai PIIIndonesian data privacyVietnamese NERPDPA compliance

BPO言語問題

ビジネスプロセスアウトソーシング企業は、APACのカスタマーサポートの多言語現実の中で運営されています。タイの顧客がタイ語でサポートに連絡し、インドネシアの顧客がバハサインドネシア語で書き、ベトナムの顧客がベトナム語を使用する場合 — チャットログはその言語で作成されます。そして、これらのチャットログが品質保証、トレーニング、またはコンプライアンス監査のために分析されるとき、それらに含まれるPIIはその言語で記録されています。

英語中心のPII検出ツールは、この環境のために構築されていません。彼らのエンティティ認識器は英語のテキストで訓練されました。彼らの名前検出モデルは英語の名前パターンを学びました。彼らの住所検出は英語の住所形式で訓練されました。

タイ語、インドネシア語、またはベトナム語のチャットログに適用すると、これらのツールは言語特有のPIIに対してほぼゼロの検出率を示します。タイの顧客の名前がタイ文字で書かれている場合、英語のテキストから名前を学んだモデルには見えません。インドネシアの住所がインドネシアの住所の慣習に従っている場合、英語で訓練された住所認識器が期待するパターンには一致しません。

APACにおけるコンプライアンスの利害

APAC全体のデータ保護規制は、顧客PIIを処理する組織にコンプライアンス義務を課します:

タイPDPA(個人データ保護法): 2022年から施行されているタイのPDPAは、タイの居住者の個人データを処理する組織に対して、データ最小化、同意、セキュリティ対策の要件を課しています。タイの名前、住所、連絡先情報を含む顧客サポートログはPDPAの範囲に入ります。

インドネシアPDPLaw: インドネシアの包括的な個人データ保護法は、インドネシアの居住者の個人データを処理する組織に対して、適切なセキュリティ対策の要件を含む義務を課します。

ベトナムPDPD(個人データ保護令): ベトナムの2023年の個人データ保護フレームワークは、ベトナムで運営またはターゲットとする組織によるベトナムの居住者の個人データの処理をカバーします。

BPO企業やAPACの顧客にサービスを提供するグローバル企業にとって、これらの規制は同じ基本的な要件を生み出します: 顧客データのPIIは特定され、適切に保護されなければなりません。この要件は、顧客が使用した言語に関係なく適用されます。

500,000チャットボリュームの問題

シンガポールに拠点を置くフィンテック企業が、12のAPAC言語で月間50万件の顧客サポートチャットログを処理している中で、特定の運用上の課題に直面しています: 彼らのコンプライアンス義務はすべての500,000件のやり取りをカバーしますが、彼らのPII検出ツールは英語のサブセットのみを正確にカバーしています。

もし30%のやり取りが英語で、ツールが英語のPIIに対して90%の検出精度を達成した場合、ツールは135,000件のやり取りを成功裏に保護します。残りの365,000件の非英語のやり取り — タイ語、インドネシア語、ベトナム語、フィリピン語、マレー語、韓国語、日本語、その他の言語の顧客データを表す — は、最小限のPII検出で通過します。

コンプライアンスの姿勢: 月間やり取りの73%は適切に保護されていませんが、コンプライアンス義務はすべての500,000件をカバーします。

365,000件の非英語のやり取りを合理的な人間のレビュー率で手動でレビューすることは、運用上実現可能ではありません。組織は、英語だけでなく、実際の言語ミックスをカバーする自動化されたPII検出が必要です。

クロスリンガルアーキテクチャが提供するもの

XLM-RoBERTa — 100以上の言語のテキストで訓練されたクロスリンガルトランスフォーマーモデル — は、言語の境界を超えて一般化するエンティティ認識を提供します。多言語コーパスで訓練されたモデルは、名前、場所、組織が言語を超えて構造的パターンを共有することを学びます。表面の形が完全に異なる場合でも。

APAC言語に対して:

  • インドネシア語 (ID): XLM-RoBERTaは、バハサインドネシア語の人名、組織、場所のエンティティ認識を提供します
  • タイ語 (TH): 関連言語ファミリーからのクロスリンガル転送が基本的なPII検出を提供します
  • ベトナム語 (VI): 音調言語の認識を伴うエンティティ認識
  • フィリピン語 (TL): タガログ語の顧客インタラクションのカバレッジ

専用モデルが利用可能な言語に対しては、言語特有のStanzaモデルと組み合わせることで、クロスリンガルアプローチは自動化されたPII検出を完全なAPAC言語ミックスに拡張します — 英語のサブセットだけではありません。

BPOにとって、コンプライアンスの意味は測定可能です: 月間やり取りの27%を保護する代わりに、包括的な多言語検出が全体のボリュームをカバーします。手動レビューの負担は365,000件のやり取りから品質管理サンプルに減少します。

出典:

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。