Zurück zum BlogDSGVO & Compliance

KYC-Dokumentenverarbeitung in großem Maßstab...

Eine digitale Bank, die täglich 5.000 KYC-Anträge in 15 EU-Ländern bearbeitet, stellte fest, dass ihr PII-Erkennungsprozess einen Rückstand von 2...

March 28, 20267 min Lesezeit
KYC PII automationfintech complianceAML data protectionPII false positive costdigital banking GDPR

Die konkurrierenden Compliance-Anforderungen von KYC

Die Einhaltung der Know Your Customer (KYC)-Vorschriften schafft eine spezifische Spannung in den Fintech-Operationen: Die Aufsichtsbehörden verlangen eine gründliche Identitätsprüfung — das Sammeln und Überprüfen persönlicher Dokumente — während die Datenschutzvorschriften verlangen, dass diese persönlichen Daten nach der Erfassung minimiert und geschützt werden.

Eine digitale Bank, die KYC für einen neuen Kontobewerber abschließt, sammelt Identitätsdokumente (Personalausweise, Reisepässe, Führerscheine), Adressnachweise und Finanzverifizierungsdokumente. Diese Dokumente enthalten hohe Konzentrationen genau der persönlichen Daten, die von der GDPR, den AML-Vorschriften und den Bankaufsichtsbehörden mit den strengsten Datenschutzmaßnahmen behandelt werden müssen.

Wenn diese gesammelten Daten für Analysen verwendet, mit Betrugserkennungssystemen geteilt oder für das Training von ML-Modellen verarbeitet werden, verlangen die Prinzipien der Datenminimierung und Zweckbindung der GDPR, dass persönliche Daten vor der Verwendung in sekundären Prozessen anonymisiert oder pseudonymisiert werden.

Das 2-Tage-Rückstandsproblem

Eine digitale Banking-Plattform, die 5.000 KYC-Anträge täglich in 15 europäischen Ländern bearbeitet, hatte ein spezifisches operatives Problem mit ihrem PII-Erkennungsprozess: Die Rate falscher Positivmeldungen in ihrem automatisierten Erkennungssystem führte zu Überprüfungswarteschlangen, die sich auf einen Rückstand von 2 Tagen ausdehnten.

Die Quelle des Rückstands: Ihr ML-basiertes PII-Erkennungstool kennzeichnete etwa 8 % des Nicht-PII-Texts in KYC-Dokumenten als potenzielle persönliche Daten. Bei 5.000 Anträgen pro Tag, wobei jeder Antrag mehrere Dokumente mit Dutzenden von Seiten enthält, überstieg das Volumen der falschen Positivmeldungen das, was das Compliance-Team am selben Geschäftstag überprüfen konnte.

Die falschen Positivmeldungen waren systematisch und vorhersehbar:

  • Firmennamen in Adressdokumenten, die als Personennamen gekennzeichnet wurden (der Namens-Recognizer des ML-Modells vermischte Eigennamen)
  • Referenznummern und Antragscodes, die als potenzielle ID-Nummern gekennzeichnet wurden (numerische Mustererkennung ohne Prüfziffervalidierung)
  • "Chase" und ähnliche gängige Vornamen, die in Institutionennamen auftauchten und als PII von Personennamen gekennzeichnet wurden

Jede falsche Positivmeldung erforderte eine menschliche Überprüfung zur Bestätigung oder Abweisung. Bei einer Rate falscher Positivmeldungen von 8 % über 5.000 Anträge bedeutete dies Tausende von täglichen Überprüfungsaufgaben, die nicht automatisiert werden konnten.

Was die ACL-Forschung zeigt

Die Forschung der ACL 2024 zur Bewertung mehrsprachiger NLP-Modelle für die PII-Erkennung ergab, dass nur 5 % der mehrsprachigen NLP-Modelle besser als 85 % F1-Score für die nicht-englische PII-Erkennung über alle 24 EU-Sprachen erreichen.

Der F1-Score kombiniert Präzision und Rückruf — ein Modell mit hohem Rückruf, aber niedriger Präzision (viele falsche Positivmeldungen) schneidet schlecht ab, ebenso wie ein Modell mit hoher Präzision, aber niedrigem Rückruf (viele falsche Negativmeldungen). Die 95 % Fehlerrate, um 85 % F1 über alle 24 EU-Sprachen zu erreichen, spiegelt die Schwierigkeit wider, ein Modell zu entwickeln, das sowohl genau als auch umfassend über das gesamte EU-Sprachenset ist.

Im Vergleich dazu erreicht XLM-RoBERTa einen 91,4 % cross-lingual F1 für PII-Erkennungsaufgaben, laut den Benchmarking-Daten von HuggingFace 2024. Die Lücke zwischen 91,4 % und der medianen Leistung mehrsprachiger NLP-Modelle erklärt, warum viele Fintech-Organisationen auf betriebliche Probleme stoßen, wenn sie handelsübliche mehrsprachige Erkennung auf KYC-Workflows anwenden.

Die hybride Lösung für KYC mit hohem Volumen

Für KYC-Operationen, die hohe Volumina an Identitätsdokumenten über mehrere EU-Jurisdiktionen verarbeiten, ist das Problem der falschen Positivmeldungen durch architektonische Entscheidungen lösbar:

Strukturierte Identifikator-Regex mit Prüfziffervalidierung: Nationale ID-Nummern (deutsche Steuer-ID, niederländische BSN, polnische PESEL usw.) haben deterministische Validierungsalgorithmen. Die Erkennung basierend auf Format + Prüfziffervalidierung erzeugt nahezu null falsche Positivmeldungen für diese Identifikatoren — eine Referenznummer, die den nationalen ID-Prüfzifferalgorithmus nicht besteht, ist keine nationale ID, unabhängig von ihrer numerischen Länge.

Kontextbewusste NLP für Namen und Freitext-PII: Personennamen in Identitätsdokumenten erscheinen in vorhersehbaren Kontexten ("Name:", "Nachname:", spezifische Formularfelder). Kontextwortanforderungen für NLP-Erkennungen reduzieren falsche Positivmeldungen von namensähnlichen Zeichenfolgen, die in Nicht-Namen-Kontexten erscheinen (Institutionennamen, Referenzbezeichnungen).

Schwellenwertkonfiguration nach Dokumenttyp: KYC-Dokumente haben andere PII-Verteilungen als Kundenservice-E-Mails oder klinische Notizen. Die Konfiguration der Erkennungsschwellen separat für Dokumenttypen — höhere Präzision für die Verarbeitung von KYC mit hohem Volumen, höherer Rückruf für klinische De-Identifizierung — ermöglicht eine Anpassung an die betrieblichen Anforderungen, anstatt einen einheitlichen Standard zu akzeptieren.

Das Rückstandsproblem ist keine Kosten der PII-Automatisierung. Es sind Kosten für die Verwendung von Werkzeugen, die nicht für die betrieblichen Anforderungen von KYC mit hohem Volumen konfiguriert sind.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.