anonym.legal

By · Last updated 2026-03-28

Назад на блоготGDPR & Усогласеност

KYC во голем обем: Трошоците на лажните позитиви

Дигитална банка која обработуваше 5.000 KYC апликации дневно во 15 земји на ЕУ утврди дека нивниот чекор за откривање PII создава задоцнување од 2 дена.

March 28, 20267 мин читање
KYC PII automationfintech complianceAML data protectionPII false positive costdigital banking GDPR

Конкурентните правила на KYC

Правилата за Познај го твојот клиент (KYC) создаваат реална тензија за финтек компаниите. Регулаторите сакаат темелни проверки на идентитетот. Тие бараат компаниите да собираат и верификуваат лични документи. Но законите за податоци притискаат во спротивна насока. Тие бараат компаниите да ги минимизираат тие податоци откако ќе бидат собрани.

Банка која отвора нова сметка собира многу документи. Тие вклучуваат национални лични карти, пасоши и возачки дозволи. Исто така собира доказ за адреса и финансиски документи. Овие датотеки содржат густи лични податоци. GDPR, AML правилата и банкарските надзорници бараат строго ракување.

Кога тие податоци се движат кон системи за измами или аналитика, се применуваат дополнителни правила. Влегуваат правилата за податоци на GDPR. Личните податоци мора да бидат маскирани или деидентификувани пред секоја секундарна употреба.

Проблемот со задоцнување од 2 дена

Дигитална банка обработуваше 5.000 KYC апликации дневно во 15 земји на ЕУ. Нивниот чекор за скенирање PII предизвика сериозен проблем. Стапката на лажни позитиви беше премногу висока. Редовите за прегледување растеа додека не достигнаа задоцнување од 2 дена.

Коренската причина беше јасна. Нивната ML-базирана алатка означуваше приближно 8% од не-PII текстот како лични податоци. Секоја датотека имаше многу страници. Дневниот обем на лажни позитиви беше премногу голем за тимот да го расчисти за еден ден. Тие постојано заостануваа.

Лажните позитиви спаѓаа во три групи:

  • Имиња на компании означени како лични имиња (моделот ги мешаше сопствените именки)
  • Референтни кодови означени како ID броеви (не беше користена проверка на контролна сума)
  • Вообичаени имиња како "Chase" во имиња на банки означени како PII на лично ime

Секој лажен позитив бараше прегледување од човек. При 8% на 5.000 дневни датотеки, ова произведуваше илјадници дневни задачи. Ниту една не можеше да биде автоматизирана.

Што покажува истражувањето на ACL

Истражувањето на ACL 2024 ги тестираше мултилингвалните NLP модели за откривање PII. Наодот беше јасен. Само 5% од мултилингвалните NLP модели постигнуваат подобар F1-резултат од 85% за не-англиски PII низ сите 24 јазици на ЕУ.

F1-резултатот ги комбинира прецизноста и повикувањето. Ниска прецизност значи многу лажни позитиви. Ниско повикување значи многу пропуштени ставки. И двата исходи лошо се оценуваат. Стапката на неуспех од 95% за достигнување 85% F1 покажува колку е тешко меѓујазичното скенирање на PII во пракса.

Наспроти тоа, XLM-RoBERTa постигнува 91,4% меѓујазичен F1 за PII задачи. Оваа бројка е од мерењето на HuggingFace 2024. Јазот помеѓу 91,4% и медијалниот модел објаснува зошто алатките со стандардна конфигурација не успеваат при мултилингвален KYC.

Хибриден дизајн за KYC со голем обем

Проблемот со лажните позитиви е решлив. Три дизајнерски избори го поправаат.

Регуларни изрази со проверка на контролна сума: Националните ID броеви имаат фиксни правила. Германскиот Steuer-ID, холандскиот BSN и полскиот PESEL секој користи математика на контролна сума. Ако бројот не ја поминува контролната сума, тој не е национален ID. Форматот плус контролната сума произведуваат скоро нула лажни позитиви за овие ID-а.

Контекстно-свесен NLP за имиња: Личните имиња во KYC датотеките се јавуваат на познати места. Тие вклучуваат "Ime:", "Презиме:" и поставени полиња на формулари. Барањето контекстуален збор пред означување на ime ги намалува лажните позитиви. Ги спречува имињата на компании да активираат предупредувања за лично ime.

Прилагодување на прагот по тип датотека: KYC датотеките се разликуваат од е-поштата за поддршка или медицинските белешки. Секој тип има различна мешавина на PII. Поставувањето на прагови по тип датотека им овозможува на тимовите да се прилагодат на нивните потреби. KYC со голем обем добива повисока прецизност. Медицинската деидентификација добива повисоко повикување.

Задоцнувањето од 2 дена не е неизбежен трошок на скенирање PII. Тоа е трошок на користење генерички алатки за специфичен работен тек. Поправката е поставување, не поголем тим.

Нашиот водич за усогласување со GDPR ги покрива правилата за минимизирање на податоци. Нашиот преглед на безбедност и усогласување ги објаснува техничките контроли кои поддржуваат усогласени KYC работни текови.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.