KYCの相反するルール

Know Your Customer（KYC）ルールは、フィンテック企業にとって本物の緊張を生み出します。規制当局は徹底的な本人確認を求めます。企業に個人文書の収集と確認を要求します。しかし、データ保護法は逆の方向に押し付けます。企業に対し、収集後そのデータを最小化することを要求します。

新しい口座を開設する銀行は多くの文書を収集します。これには国民身分証明書、パスポート、運転免許証が含まれます。住所証明書や財務書類も収集します。これらのファイルには密な個人データが含まれています。GDPR、AML規則、銀行監督当局はすべて厳格な取り扱いを要求します。

そのデータが不正防止システムや分析に転送される場合、追加のルールが適用されます。GDPRのデータ最小化ルールが機能し始めます。個人データは二次使用の前にマスクされるか匿名化される必要があります。

2日間のバックログ問題

あるデジタル銀行は、EU15か国で毎日5,000件のKYC申請を処理していました。PII スキャンステップが深刻な問題を引き起こしました。誤検知率が高すぎました。レビューキューが増大し、2日間のバックログに達しました。

根本原因は明確でした。MLベースのツールが非PIIテキストの約8%を個人データとしてフラグを立てました。各ファイルには多くのページがありました。毎日の誤検知量はチームが1日で処理するには多すぎました。遅延が積み重なり続けました。

誤検知は3つのグループに分かれました：

企業名が人名としてフラグを立てられた（モデルが固有名詞を混同した）
参照コードがID番号としてフラグを立てられた（チェックサム確認なし）
銀行名の中の「Chase」のような一般的な名前が人名PIIとしてフラグを立てられた

各誤検知には人間によるレビューが必要でした。5,000件の毎日のファイルの8%では、毎日何千ものタスクが発生しました。どれも自動化できませんでした。

ACL研究が示すもの

ACL 2024の研究は、PII検出のための多言語NLPモデルをテストしました。結果は明確でした。多言語NLPモデルのわずか5%だけが、EU24言語すべてにわたって非英語PIIで85%超のF1スコアを達成します。

F1スコアは精度とリコールを組み合わせます。精度が低いと誤検知が多くなります。リコールが低いと多くの見逃しが生じます。どちらの結果もスコアが低くなります。85% F1に達する95%の失敗率は、多言語PII検出が実際にいかに難しいかを示しています。

対照的に、XLM-RoBERTaはPIIタスクで91.4%の多言語F1を達成します。この数値はHuggingFace 2024ベンチマーキングからのものです。91.4%と中央値モデルの差が、汎用ツールが多言語KYCで失敗する理由を説明しています。

大量KYCのためのハイブリッド設計

誤検知問題は解決可能です。3つの設計選択がそれを修正します。

チェックサム確認付きの正規表現： 国民ID番号には固定ルールがあります。ドイツのSteuer-ID、オランダのBSN、ポーランドのPESELはそれぞれチェックサム計算を使用します。番号がチェックサムに失敗した場合、それは国民IDではありません。形式プラスチェックサムは、これらのIDの誤検知をほぼゼロにします。

名前のためのコンテキスト対応NLP： KYCファイル内の個人名は既知の場所に現れます。「名前：」、「姓：」、設定されたフォームフィールドが含まれます。名前をフラグ立てる前にコンテキストワードを要求することで誤検知が減ります。企業名が個人名アラートを引き起こすのを防ぎます。

ファイルタイプ別のしきい値調整： KYCファイルはサポートメールや医療記録とは異なります。各タイプには異なるPII分布があります。ファイルタイプごとにしきい値を設定することで、チームは自分たちのニーズに合わせて調整できます。大量KYCはより高い精度を得ます。医療匿名化はより高いリコールを得ます。

2日間のバックログは、PIIスキャンの避けられないコストではありません。特定のワークフローに汎用ツールを使用するコストです。解決策は設定であり、より大きなチームではありません。

GDPRコンプライアンスガイドはデータ最小化ルールをカバーしています。セキュリティとコンプライアンスの概要では、準拠したKYCワークフローをサポートする技術的制御を説明しています。

出典

データを保護する準備はできましたか？

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

無料トライアルを開始機能を見る

スケールでのKYC文書処理：なぜ偽陽性がPII自動化の隠れたコストなのか

KYCの相反するルール

2日間のバックログ問題

ACL研究が示すもの

大量KYCのためのハイブリッド設計

出典

関連する記事

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

データを保護する準備はできましたか？

スケールでのKYC文書処理：なぜ偽陽性がPII自動化の隠れたコストなのか

KYCの相反するルール

2日間のバックログ問題

ACL研究が示すもの

大量KYCのためのハイブリッド設計

出典

関連する記事

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

データを保護する準備はできましたか？

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow