Мовна прогалина BPO
Команди підтримки в APAC обробляють чати на багатьох мовах. Таїландські користувачі пишуть тайською. Індонезійські користувачі пишуть Bahasa. В'єтнамські користувачі пишуть в'єтнамською.
Ці журнали чатів містять PII. Імена. Номери телефонів. Адреси. Ідентифікаційні номери. Усе місцевим шрифтом.
Однієї мови недостатньо. Їхні моделі навчались на Західному тексті. Засоби пошуку імен вивчали форми імен у латинському шрифті. Моделі адрес вивчали Західні формати адрес.
Тайський шрифт є невидимим для монолінгвальної моделі. Індонезійська адреса не відповідає шаблонам латинського шрифту. В'єтнамський тональний текст додає ще один шар невідповідності. Результат: майже нульові знахідки PII для нелатинських журналів.
Більшість чатів у APAC — не англійською. Це не нішова прогалина. Для великих BPO-компаній це норма.
Ставки відповідності в APAC
Три закони про дані тепер охоплюють ці регіони. Кожен із них діє. Кожен застосовується до BPO-компаній, що обробляють дані клієнтів із APAC.
Thailand PDPA: Діє з 2022 року. Вимагає мінімізації даних, згоди та засобів контролю безпеки. Журнали підтримки з тайськими іменами підпадають під його сферу застосування.
Indonesia PDPLaw: Охоплює всі компанії, що обробляють дані резидентів. Вимагає заходів безпеки для персональних записів.
Vietnam PDPD: Декрет В'єтнаму 2023 року застосовується до будь-якої компанії, що обробляє дані в'єтнамських резидентів. Місцезнаходження компанії не має значення.
Всі три закони мають одне основне правило: знайти PII і захистити його. Це правило діє для будь-якого шрифту, яким користуються клієнти. Дивіться наш огляд відповідності, щоб дізнатися, як ці закони впливають на BPO-роботу.
Проблема 500 000 чатів
Сінгапурський фінтех обробляє 500 000 чатів підтримки щомісяця. Він обслуговує клієнтів 12 діалектами APAC. Його юридичний обов'язок охоплює всі 500 000.
Його інструмент лише для англійської покриває лише англомовну частку.
Придавімо, що 30% чатів англійською. Припустімо, що точність — 90%. Це захищає близько 135 000 чатів. Інші 365 000 проходять майже без знахідок PII.
Це залишає 73% чатів незахищеними. Ручна перевірка 365 000 чатів є нежиттєздатною. Лише витрати на персонал роблять її непрактичною. Автоматизовані інструменти повинні охоплювати реальне поєднання шрифтів, що використовуються, а не лише один.
Крос-мовне виявлення
XLM-RoBERTa — модель, навчена на 100+ мовах. Вона дізнається, що імена, місця та компанії мають спільні шаблони в різних шрифтах. Вона працює навіть коли поверхневий текст виглядає абсолютно різним.
Покриття APAC включає чотири ключові шрифти:
Bahasa Indonesia — знаходить імена, компанії та місця. Тайська — базовий PII через крос-мовний перенос. В'єтнамська — виявлення сутностей з підтримкою тонального шрифту. Філіппінська — покриття для чатів Tagalog.
Stanza додає моделі для шрифтів, де вони існують. Обидва інструменти разом покривають весь спектр APAC. Жоден не вимагає окремого інструменту для кожного шрифту. Дивіться наш посібник з безпеки для кроків налаштування.
Вплив на відповідність є очевидним. Замість покриття 27% чатів, повне багатомовне виявлення охоплює всі. Черга ручної перевірки скорочується з сотень тисяч до невеликої вибіркової перевірки.
Чому це важливо зараз
Thailand PDPA, Indonesia PDPLaw та Vietnam PDPD — усі діють. Регулятори очікують, що компанії знайдуть PII для кожного шрифту, яким користуються їхні клієнти.
Монолінгвальні інструменти не відповідають цій вимозі. Крос-мовні моделі — відповідають. Для BPO-компаній із широкою базою користувачів APAC прогалина має значення. Це межа між правовим ризиком і правовим покриттям.