KYCの相反するルール
Know Your Customer(KYC)ルールは、フィンテック企業にとって本物の緊張を生み出します。規制当局は徹底的な本人確認を求めます。企業に個人文書の収集と確認を要求します。しかし、データ保護法は逆の方向に押し付けます。企業に対し、収集後そのデータを最小化することを要求します。
新しい口座を開設する銀行は多くの文書を収集します。これには国民身分証明書、パスポート、運転免許証が含まれます。住所証明書や財務書類も収集します。これらのファイルには密な個人データが含まれています。GDPR、AML規則、銀行監督当局はすべて厳格な取り扱いを要求します。
そのデータが不正防止システムや分析に転送される場合、追加のルールが適用されます。GDPRのデータ最小化ルールが機能し始めます。個人データは二次使用の前にマスクされるか匿名化される必要があります。
2日間のバックログ問題
あるデジタル銀行は、EU15か国で毎日5,000件のKYC申請を処理していました。PII スキャンステップが深刻な問題を引き起こしました。誤検知率が高すぎました。レビューキューが増大し、2日間のバックログに達しました。
根本原因は明確でした。MLベースのツールが非PIIテキストの約8%を個人データとしてフラグを立てました。各ファイルには多くのページがありました。毎日の誤検知量はチームが1日で処理するには多すぎました。遅延が積み重なり続けました。
誤検知は3つのグループに分かれました:
- 企業名が人名としてフラグを立てられた(モデルが固有名詞を混同した)
- 参照コードがID番号としてフラグを立てられた(チェックサム確認なし)
- 銀行名の中の「Chase」のような一般的な名前が人名PIIとしてフラグを立てられた
各誤検知には人間によるレビューが必要でした。5,000件の毎日のファイルの8%では、毎日何千ものタスクが発生しました。どれも自動化できませんでした。
ACL研究が示すもの
ACL 2024の研究は、PII検出のための多言語NLPモデルをテストしました。結果は明確でした。多言語NLPモデルのわずか5%だけが、EU24言語すべてにわたって非英語PIIで85%超のF1スコアを達成します。
F1スコアは精度とリコールを組み合わせます。精度が低いと誤検知が多くなります。リコールが低いと多くの見逃しが生じます。どちらの結果もスコアが低くなります。85% F1に達する95%の失敗率は、多言語PII検出が実際にいかに難しいかを示しています。
対照的に、XLM-RoBERTaはPIIタスクで91.4%の多言語F1を達成します。この数値はHuggingFace 2024ベンチマーキングからのものです。91.4%と中央値モデルの差が、汎用ツールが多言語KYCで失敗する理由を説明しています。
大量KYCのためのハイブリッド設計
誤検知問題は解決可能です。3つの設計選択がそれを修正します。
チェックサム確認付きの正規表現: 国民ID番号には固定ルールがあります。ドイツのSteuer-ID、オランダのBSN、ポーランドのPESELはそれぞれチェックサム計算を使用します。番号がチェックサムに失敗した場合、それは国民IDではありません。形式プラスチェックサムは、これらのIDの誤検知をほぼゼロにします。
名前のためのコンテキスト対応NLP: KYCファイル内の個人名は既知の場所に現れます。「名前:」、「姓:」、設定されたフォームフィールドが含まれます。名前をフラグ立てる前にコンテキストワードを要求することで誤検知が減ります。企業名が個人名アラートを引き起こすのを防ぎます。
ファイルタイプ別のしきい値調整: KYCファイルはサポートメールや医療記録とは異なります。各タイプには異なるPII分布があります。ファイルタイプごとにしきい値を設定することで、チームは自分たちのニーズに合わせて調整できます。大量KYCはより高い精度を得ます。医療匿名化はより高いリコールを得ます。
2日間のバックログは、PIIスキャンの避けられないコストではありません。特定のワークフローに汎用ツールを使用するコストです。解決策は設定であり、より大きなチームではありません。
GDPRコンプライアンスガイドはデータ最小化ルールをカバーしています。セキュリティとコンプライアンスの概要では、準拠したKYCワークフローをサポートする技術的制御を説明しています。