Powrót do blogaTechniczne

APAC Prywatność Danych: Dlaczego Twój Narzędzie PII w...

Singapurski fintech przetwarzający 500 000 miesięcznych czatów wsparcia w 12 językach APAC odkrył...

March 24, 20267 min czytania
APAC PII detectionThai PIIIndonesian data privacyVietnamese NERPDPA compliance

Problem Językowy BPO

Firmy zajmujące się outsourcingiem procesów biznesowych działają w wielojęzycznej rzeczywistości wsparcia klienta APAC. Kiedy klient w Tajlandii kontaktuje się z wsparciem w języku tajskim, kiedy indonezyjski klient pisze w Bahasa Indonesia, kiedy wietnamski klient używa wietnamskiego — dziennik czatu jest tworzony w tym języku. A kiedy te dzienniki czatu są analizowane pod kątem zapewnienia jakości, szkolenia lub audytów zgodności, PII, które zawierają, jest w tym języku.

Narzędzia do wykrywania PII skoncentrowane na języku angielskim nie zostały stworzone do tego środowiska. Ich rozpoznawacze jednostek były trenowane na angielskim tekście. Ich modele wykrywania imion nauczyły się wzorców imion w języku angielskim. Ich wykrywanie adresów było trenowane na angielskich formatach adresów.

Stosowane do tajskich, indonezyjskich lub wietnamskich dzienników czatu, te narzędzia produkują prawie zerowe wskaźniki wykrywania PII specyficznych dla języka. Imię tajskiego klienta, napisane w tajskim skrypcie, jest niewidoczne dla modelu, który nauczył się imion z angielskiego tekstu. Adres indonezyjski, zgodny z indonezyjskimi konwencjami adresowymi, nie pasuje do wzorców, których oczekuje rozpoznawacz adresów trenowany na angielskim.

Stawki Zgodności w APAC

Przepisy dotyczące ochrony danych w całym APAC tworzą obowiązki zgodności dla organizacji przetwarzających PII klientów:

Tajlandia PDPA (Ustawa o Ochronie Danych Osobowych): Obowiązująca od 2022 roku, PDPA Tajlandii nakłada wymagania dotyczące minimalizacji danych, zgody i środków bezpieczeństwa na organizacje przetwarzające dane osobowe mieszkańców Tajlandii. Dzienniki wsparcia klientów zawierające tajskie imiona, adresy i informacje kontaktowe podlegają zakresowi PDPA.

Indonezja PDPLaw: Wszechstronna Ustawa o Ochronie Danych Osobowych w Indonezji tworzy obowiązki dla organizacji przetwarzających dane osobowe mieszkańców Indonezji, w tym wymagania dotyczące odpowiednich środków bezpieczeństwa.

Wietnam PDPD (Dekret o Ochronie Danych Osobowych): Ramy ochrony danych osobowych Wietnamu z 2023 roku obejmują przetwarzanie danych osobowych mieszkańców Wietnamu przez organizacje działające w Wietnamie lub celujące w Wietnam.

Dla firm BPO i globalnych organizacji obsługujących klientów APAC, te przepisy tworzą ten sam fundamentalny wymóg: PII w danych klientów musi być zidentyfikowane i odpowiednio chronione. Wymóg ten dotyczy niezależnie od tego, w jakim języku posługiwał się klient.

Problem Wolumenu 500 000 Czatów

Singapurski fintech przetwarzający 500 000 dzienników czatu wsparcia klientów miesięcznie w 12 językach APAC stoi przed specyficznym wyzwaniem operacyjnym: ich obowiązek zgodności obejmuje wszystkie 500 000 interakcji, ale ich narzędzie do wykrywania PII dokładnie obejmuje tylko anglojęzyczny podzbiór.

Jeśli 30% interakcji jest w języku angielskim, a narzędzie osiąga 90% dokładności wykrywania PII w języku angielskim, narzędzie skutecznie chroni 135 000 interakcji. Pozostałe 365 000 interakcji nieanglojęzycznych — reprezentujące dane klientów z Tajlandii, Indonezji, Wietnamu, Filipin, Malezji, Korei, Japonii i innych języków — przechodzi z minimalnym wykrywaniem PII.

Postawa zgodności: 73% miesięcznych interakcji nie jest odpowiednio chronionych, mimo że obowiązek zgodności obejmuje wszystkie 500 000.

Ręczna analiza 365 000 interakcji nieanglojęzycznych przy jakiejkolwiek rozsądnej stawce przeglądu ludzkiego nie jest operacyjnie wykonalna. Organizacja potrzebuje automatycznego wykrywania PII, które obejmuje ich rzeczywistą mieszankę językową, a nie tylko angielski.

Co Oferuje Architektura Międzyjęzykowa

XLM-RoBERTa — model transformera międzyjęzykowego trenowany na tekstach z ponad 100 języków — zapewnia rozpoznawanie jednostek, które generalizuje się przez granice językowe. Model trenowany na wielojęzycznych korpusach uczy się, że imiona, lokalizacje i organizacje dzielą strukturalne wzorce w różnych językach, nawet gdy formy powierzchniowe różnią się całkowicie.

Dla języków APAC:

  • Indonezyjski (ID): XLM-RoBERTa zapewnia rozpoznawanie jednostek dla imion osób, organizacji i lokalizacji w Bahasa Indonesia
  • Tajski (TH): Międzyjęzykowy transfer z pokrewnych rodzin językowych zapewnia podstawowe wykrywanie PII
  • Wietnamski (VI): Rozpoznawanie jednostek z uwzględnieniem języków tonalnych
  • Filipiński (TL): Pokrycie dla interakcji klientów w języku tagalog

W połączeniu z modelami Stanza specyficznymi dla języka dla języków, w których dostępne są dedykowane modele, podejście międzyjęzykowe rozszerza automatyczne wykrywanie PII na pełną mieszankę językową APAC — nie tylko na angielski podzbiór.

Dla BPO, implikacja zgodności jest mierzalna: zamiast chronić 27% miesięcznych interakcji, kompleksowe wykrywanie wielojęzyczne obejmuje pełny wolumen. Obciążenie ręcznego przeglądu spada z 365 000 interakcji do próbki kontroli jakości.

Źródła:

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.