By · Last updated 2026-03-28

بازگشت به وبلاگGDPR و انطباق

KYC در مقیاس: هزینه‌های مثبت کاذب

یک بانک دیجیتال که روزانه ۵۰۰۰ درخواست KYC در ۱۵ کشور اروپایی پردازش می‌کرد دریافت که مرحله اسکن اطلاعات شخصی باعث تأخیر ۲ روزه شده است.

March 28, 20267 دقیقه مطالعه
KYC PII automationfintech complianceAML data protectionPII false positive costdigital banking GDPR

قوانین رقیب KYC

قوانین شناخت مشتری (KYC) یک تنش واقعی برای شرکت‌های فین‌تک ایجاد می‌کنند. نهادهای نظارتی خواهان بررسی‌های هویتی کامل هستند. آن‌ها از شرکت‌ها می‌خواهند اسناد شخصی را جمع‌آوری و تأیید کنند. اما قوانین داده فشار معکوسی دارند. آن‌ها از شرکت‌ها می‌خواهند که پس از جمع‌آوری داده‌ها را به حداقل برسانند.

یک بانک که حساب جدید باز می‌کند اسناد زیادی جمع‌آوری می‌کند. این موارد شامل کارت‌های شناسایی ملی، گذرنامه‌ها و گواهینامه‌های رانندگی هستند. همچنین مدارک آدرس و اسناد مالی را جمع‌آوری می‌کند. این فایل‌ها دارای داده‌های شخصی متراکم هستند. GDPR، قوانین AML و ناظران بانکی همگی مدیریت دقیق را الزام می‌کنند.

وقتی این داده‌ها به سیستم‌های تقلب یا تحلیل منتقل می‌شوند، قوانین اضافی اعمال می‌شوند. قوانین داده GDPR وارد می‌شوند. داده‌های شخصی باید قبل از هر استفاده ثانوی ماسک یا ناشناس شوند.

مشکل تأخیر ۲ روزه

یک بانک دیجیتال روزانه ۵۰۰۰ درخواست KYC در ۱۵ کشور اروپایی پردازش می‌کرد. مرحله اسکن اطلاعات شخصی مشکل جدی ایجاد کرد. نرخ مثبت کاذب خیلی بالا بود. صف‌های بررسی رشد کردند تا به یک تأخیر ۲ روزه رسیدند.

ریشه مشکل روشن بود. ابزار مبتنی بر ML آن‌ها تقریباً ۸٪ متن غیر اطلاعات شخصی را به‌عنوان داده شخصی علامت‌گذاری می‌کرد. هر فایل چندین صفحه داشت. حجم روزانه مثبت کاذب برای تیم زیادی بود که در یک روز پاک کنند. آن‌ها دائماً عقب می‌افتادند.

مثبت‌های کاذب در سه گروه بودند:

  • نام‌های شرکت به اشتباه به‌عنوان نام شخص علامت‌گذاری شدند (مدل اسم خاص را اشتباه تشخیص داد)
  • کدهای مرجع به اشتباه به‌عنوان شماره شناسه علامت‌گذاری شدند (بررسی جمع‌باق انجام نشد)
  • نام‌های رایج مثل «Chase» در نام‌های بانک به‌عنوان اطلاعات شخصی شخصی علامت‌گذاری شدند

هر مثبت کاذب نیاز به بررسی انسانی داشت. با ۸٪ از ۵۰۰۰ فایل روزانه، هزاران وظیفه روزانه ایجاد می‌شد. هیچکدام قابل خودکارسازی نبودند.

نتایج تحقیقات ACL

تحقیقات ACL 2024 مدل‌های NLP چندزبانه را برای تشخیص اطلاعات شخصی آزمایش کرد. یافته چشمگیر بود: فقط ۵٪ از مدل‌های NLP چندزبانه به F1-score بالاتر از ۸۵٪ برای اطلاعات شخصی غیرانگلیسی در همه ۲۴ زبان اروپایی دست می‌یابند.

F1-score دقت و بازیابی را ترکیب می‌کند. دقت پایین یعنی مثبت‌های کاذب زیاد. بازیابی پایین یعنی موارد از دست رفته زیاد. هر دو نتیجه نمره ضعیفی می‌گیرند. نرخ شکست ۹۵٪ در رسیدن به F1 85٪ نشان می‌دهد که اسکن اطلاعات شخصی چندزبانه در عمل چقدر دشوار است.

در مقابل، XLM-RoBERTa به F1 چندزبانه ۹۱.۴٪ برای وظایف اطلاعات شخصی دست می‌یابد. این رقم از معیارسنجی HuggingFace 2024 است. شکاف بین ۹۱.۴٪ و میانگین مدل توضیح می‌دهد که چرا ابزارهای آماده‌به‌کار در KYC چندزبانه شکست می‌خورند.

طراحی ترکیبی برای KYC حجم بالا

مشکل مثبت کاذب قابل حل است. سه انتخاب طراحی آن را برطرف می‌کند.

عبارت منظم با بررسی جمع‌باق: شماره‌های شناسه ملی قوانین ثابتی دارند. Steuer-ID آلمان، BSN هلند و PESEL لهستان هر کدام از ریاضیات جمع‌باق استفاده می‌کنند. اگر یک عدد جمع‌باق را رد کند، یک شناسه ملی نیست. قالب به‌علاوه جمع‌باق مثبت‌های کاذب نزدیک به صفر برای این شناسه‌ها تولید می‌کند.

NLP آگاه از زمینه برای نام‌ها: نام‌های شخص در فایل‌های KYC در مکان‌های مشخصی ظاهر می‌شوند. این‌ها شامل «نام:»، «نام خانوادگی:» و فیلدهای فرم مشخص هستند. نیاز به یک کلمه زمینه قبل از علامت‌گذاری یک نام، مثبت‌های کاذب را کاهش می‌دهد. از علامت‌گذاری نام شرکت‌ها به‌عنوان هشدار نام شخص جلوگیری می‌کند.

تنظیم آستانه بر اساس نوع فایل: فایل‌های KYC با ایمیل‌های پشتیبانی یا یادداشت‌های پزشکی متفاوتند. هر نوع ترکیب اطلاعات شخصی متفاوتی دارد. تنظیم آستانه‌ها بر اساس نوع فایل به تیم‌ها اجازه می‌دهد برای نیازهای خود تنظیم کنند. KYC حجم بالا دقت بالاتری دریافت می‌کند. شناسه‌زدایی پزشکی بازیابی بالاتری دریافت می‌کند.

تأخیر ۲ روزه هزینه اجتناب‌ناپذیر اسکن اطلاعات شخصی نیست. هزینه استفاده از ابزارهای عمومی در یک گردش کاری خاص است. راه‌حل تنظیمات است، نه یک تیم بزرگتر.

راهنمای انطباق GDPR ما قوانین به حداقل رساندن داده را پوشش می‌دهد. مرور امنیت و انطباق ما کنترل‌های فنی که از گردش‌های کاری KYC منطبق پشتیبانی می‌کنند را توضیح می‌دهد.

منابع

آماده‌اید داده‌های خود را محافظت کنید؟

شروع به ناشناس‌سازی PII با بیش از ۲۸۵ نوع نهاد در ۴۸ زبان.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.