anonym.legal
Назад к блогуТехнические

Конфиденциальность данных в Азиатско-Тихоокеанском...

Сингапурская финтех-компания, обрабатывающая 500,000 чатов поддержки в месяц на 12 языках Азиатско-Тихоокеанского региона, обнаружила...

March 24, 20267 мин чтения
APAC PII detectionThai PIIIndonesian data privacyVietnamese NERPDPA compliance

Проблема языков BPO

Компании по аутсорсингу бизнес-процессов работают в многоязычной реальности поддержки клиентов в Азиатско-Тихоокеанском регионе. Когда клиент в Таиланде обращается в поддержку на тайском, когда индонезийский клиент пишет на bahasa Indonesia, когда вьетнамский клиент использует вьетнамский — журнал чата создается на этом языке. И когда эти журналы чата анализируются для обеспечения качества, обучения или аудита соблюдения, PII, содержащиеся в них, находятся на этом языке.

Инструменты обнаружения PII, ориентированные на английский язык, не были созданы для этой среды. Их распознаватели сущностей обучались на английском тексте. Модели обнаружения имен изучали паттерны имен на английском. Их обнаружение адресов было обучено на форматах адресов на английском языке.

Примененные к тайским, индонезийским или вьетнамским журналам чата, эти инструменты показывают почти нулевые показатели обнаружения PII, специфичных для языка. Имя тайского клиента, написанное тайским шрифтом, невидимо для модели, которая изучала имена из английского текста. Индонезийский адрес, следуя индонезийским адресным конвенциям, не соответствует паттернам, которые ожидает распознаватель адресов, обученный на английском.

Ставки на соблюдение в Азиатско-Тихоокеанском регионе

Регулирование защиты данных в Азиатско-Тихоокеанском регионе создает обязательства по соблюдению для организаций, обрабатывающих PII клиентов:

Закон о защите персональных данных Таиланда (PDPA): Вступивший в силу с 2022 года, PDPA Таиланда накладывает требования к минимизации данных, согласию и мерам безопасности на организации, обрабатывающие персональные данные жителей Таиланда. Журналы поддержки клиентов, содержащие тайские имена, адреса и контактную информацию, подпадают под действие PDPA.

Закон о защите персональных данных Индонезии: Всеобъемлющий закон о защите персональных данных Индонезии создает обязательства для организаций, обрабатывающих персональные данные жителей Индонезии, включая требования к соответствующим мерам безопасности.

Указ о защите персональных данных Вьетнама (PDPD): Рамки защиты персональных данных Вьетнама 2023 года охватывают обработку персональных данных жителей Вьетнама организациями, работающими в или нацеливающимися на Вьетнам.

Для компаний BPO и глобальных организаций, обслуживающих клиентов в Азиатско-Тихоокеанском регионе, эти регламенты создают одно и то же основное требование: PII в данных клиентов должны быть идентифицированы и должным образом защищены. Это требование применяется независимо от того, на каком языке общался клиент.

Проблема объема 500,000 чатов

Сингапурская финтех-компания, обрабатывающая 500,000 журналов чата поддержки клиентов в месяц на 12 языках Азиатско-Тихоокеанского региона, сталкивается с конкретной операционной проблемой: их обязательство по соблюдению охватывает все 500,000 взаимодействий, но их инструмент обнаружения PII точно охватывает только подмножество на английском языке.

Если 30% взаимодействий на английском языке, и инструмент достигает 90% точности обнаружения PII на английском, инструмент успешно защищает 135,000 взаимодействий. Оставшиеся 365,000 взаимодействий на других языках — представляющие тайские, индонезийские, вьетнамские, филиппинские, малайские, корейские, японские и другие языковые данные клиентов — проходят с минимальным обнаружением PII.

Позиция по соблюдению: 73% ежемесячных взаимодействий не защищены должным образом, даже несмотря на то, что обязательство по соблюдению охватывает все 500,000.

Ручной обзор 365,000 взаимодействий на других языках при любом разумном темпе человеческого обзора не является операционно целесообразным. Организации нужен автоматизированный инструмент обнаружения PII, который охватывает их фактическую языковую смесь, а не только английский.

Что предоставляет кросс-языковая архитектура

XLM-RoBERTa — кросс-языковая трансформерная модель, обученная на текстах более чем на 100 языках — предоставляет распознавание сущностей, которое обобщается за языковыми границами. Модель, обученная на многоязычных корпусах, учит, что имена, местоположения и организации имеют общие структурные паттерны на разных языках, даже когда поверхностные формы полностью различаются.

Для языков Азиатско-Тихоокеанского региона:

  • Индонезийский (ID): XLM-RoBERTa предоставляет распознавание сущностей для имен людей, организаций и мест в bahasa Indonesia
  • Тайский (TH): Кросс-языковой перенос из родственных языковых семей обеспечивает базовое обнаружение PII
  • Вьетнамский (VI): Распознавание сущностей с учетом тональных языков
  • Филиппинский (TL): Охват для взаимодействий клиентов на тагальском языке

В сочетании с языковыми моделями Stanza для языков, где доступны специализированные модели, кросс-языковой подход расширяет автоматизированное обнаружение PII на всю языковую смесь Азиатско-Тихоокеанского региона — не только на английское подмножество.

Для BPO последствия соблюдения можно измерить: вместо защиты 27% ежемесячных взаимодействий, комплексное многоязычное обнаружение охватывает весь объем. Нагрузка ручного обзора снижается с 365,000 взаимодействий до выборки для контроля качества.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.