anonym.legal
Назад към блогаТехнически

APAC Поверителност на данните: Защо вашият инструмент...

Сингапурски финтех, обработващ 500 000 месечни чатове за поддръжка на 12 APAC езика, установи...

March 24, 20267 мин. четене
APAC PII detectionThai PIIIndonesian data privacyVietnamese NERPDPA compliance

Проблемът с езика на BPO

Компаниите за аутсорсинг на бизнес процеси работят в многоезичната реалност на APAC поддръжка на клиенти. Когато клиент в Тайланд се свърже с поддръжката на тайландски, когато клиент от Индонезия пише на Bahasa Indonesia, когато клиент от Виетнам използва виетнамски — журналът за чат се създава на този език. И когато тези регистрационни файлове за чат се анализират за осигуряване на качество, обучение или одит на съответствие, PII, които те съдържат, е на този език.

Инструментите за откриване на PII, ориентирани към английски език, не са създадени за тази среда. Техните разпознаватели на обекти бяха обучени на английски текст. Техните модели за откриване на имена научиха модели на английски имена. Тяхното откриване на адреси беше обучено на адресни формати на английски език.

Приложени към тайландски, индонезийски или виетнамски журнали за чат, тези инструменти произвеждат почти нулеви нива на откриване за специфични за езика PII. Името на тайландски клиент, написано на тайландски шрифт, е невидимо за модел, който е научил имената от английски текст. Индонезийски адрес, следвайки индонезийските конвенции за адреси, не отговаря на моделите, които очаква обучен на английски разпознавач на адреси.

Залогът за съответствие в APAC

Разпоредбите за защита на данните в APAC създават задължения за съответствие за организациите, обработващи PII на клиента:

Thailand PDPA (Закон за защита на личните данни): В сила от 2022 г., PDPA на Тайланд налага изисквания за минимизиране на данните, съгласие и мерки за сигурност на организации, обработващи лични данни на жители на Тайланд. Регистрационните файлове за поддръжка на клиенти, съдържащи тайландски имена, адреси и информация за контакт, попадат в обхвата на PDPA.

Закон за защита на личните данни на Индонезия: Изчерпателният закон за защита на личните данни на Индонезия създава задължения за организациите, обработващи лични данни на жители на Индонезия, включително изисквания за подходящи мерки за сигурност.

Виетнам PDPD (Указ за защита на личните данни): Рамката за защита на личните данни на Виетнам от 2023 г. обхваща обработката на лични данни на жителите на Виетнам от организации, работещи във или насочени към Виетнам.

За BPO компании и глобални организации, обслужващи клиенти на APAC, тези разпоредби създават същото основно изискване: PII в клиентските данни трябва да бъдат идентифицирани и подходящо защитени. Изискването важи независимо кой език е използвал клиентът.

Проблемът с обема на 500 000 чатове

Базиран в Сингапур финтех, който обработва 500 000 чат журнала за поддръжка на клиенти месечно на 12 APAC езика е изправен пред специфично оперативно предизвикателство: тяхното задължение за съответствие обхваща всичките 500 000 взаимодействия, но техният инструмент за откриване на PII покрива точно само подмножеството на английски език.

Ако 30% от взаимодействията са на английски език и инструментът постига 90% точност на откриване за PII на английски, инструментът успешно защитава 135 000 взаимодействия. Останалите 365 000 неанглийски взаимодействия – представляващи данни на клиенти на тайландски, индонезийски, виетнамски, филипински, малайски, корейски, японски и други езици – преминават с минимално откриване на PII.

Положението за съответствие: 73% от месечните взаимодействия не са адекватно защитени, въпреки че задължението за съответствие обхваща всичките 500 000.

Ръчен преглед на 365 000 неанглийски взаимодействия при разумен процент на преглед от човек не е оперативно осъществим. Организацията се нуждае от автоматизирано откриване на PII, което обхваща действителния езиков микс, а не само английски.

Какво предоставя междуезичната архитектура

XLM-RoBERTa — междуезиков преобразуващ модел, обучен върху текст от над 100 езика — осигурява разпознаване на обекти, което се обобщава през езиковите граници. Модел, обучен на многоезични корпуси, научава, че имената, местоположенията и организациите споделят структурни модели на различните езици, дори когато повърхностните форми се различават напълно.

За APAC езици:

  • Индонезийски (ID): XLM-RoBERTa предоставя разпознаване на лица за имена на лица, организации и местоположения в Bahasa Indonesia
  • Тайландски (TH): Междуезичното прехвърляне от сродни езикови семейства осигурява базово откриване на PII
  • Виетнамски (VI): Разпознаване на обекти с разпознаване на тонален език
  • Филипински (TL): Покритие за взаимодействие с клиенти на тагалог

Комбиниран със специфични за езика Stanza модели за езици, където са налични специални модели, междуезиковият подход разширява автоматизираното откриване на PII до пълния езиков микс APAC — не само подмножеството на английски.

За BPOs значението на съответствието е измеримо: вместо да защитава 27% от месечните взаимодействия, цялостното многоезично откриване обхваща целия обем. Тежестта на ръчния преглед намалява от 365 000 взаимодействия до извадка за контрол на качеството.

Източници:

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.