Problema limbajului BPO
Companiile de externalizare a proceselor de afaceri operează în realitatea multilingvă a asistenței pentru clienți din APAC. Când un client din Thailanda contactează asistența în limba thailandeză, când un client indonezian scrie în Bahasa Indonesia, când un client vietnamez folosește limba vietnameză — jurnalul de chat este creat în acea limbă. Și când aceste jurnale de chat sunt analizate pentru asigurarea calității, instruire sau audit de conformitate, PII pe care îl conțin este în acea limbă.
Instrumentele de detectare PII centrate pe limba engleză nu au fost construite pentru acest mediu. Recunoaștetorii de entități au fost antrenați pe text în limba engleză. Modelele de detectare a numelor au învățat modele de nume în limba engleză. Detectarea adreselor a fost antrenată pe formate de adrese în limba engleză.
Aplicat la jurnalele de chat în limba thailandeză, indoneziană sau vietnameză, aceste instrumente produc rate de detectare aproape zero pentru PII specific limbii. Numele unui client thailandez, scris în script thailandez, este invizibil pentru un model care a învățat nume din text în limba engleză. O adresă indoneziană, urmând convenții de adrese indoneziene, nu se potrivește cu modelele pe care le așteaptă un recunoscător de adrese antrenat în limba engleză.
Mizele conformității în APAC
Reglementările de protecție a datelor din APAC creează obligații de conformitate pentru organizațiile care procesează PII-ul clienților:
Thailand PDPA (Personal Data Protection Act): Efectivă din 2022, PDPA din Thailanda impune cerințe pentru minimizarea datelor, consimțământ și măsuri de securitate pentru organizațiile care procesează date cu caracter personal ale rezidenților din Thailanda. Jurnalele de asistență pentru clienți care conțin nume, adrese și informații de contact în limba thailandeză se încadrează în domeniul de aplicare al PDPA.
Indonesia PDPLaw: Legea cuprinzătoare de protecție a datelor cu caracter personal din Indonezia creează obligații pentru organizațiile care procesează date cu caracter personal ale rezidenților indonezieni, inclusiv cerințe pentru măsuri de securitate adecvate.
Vietnam PDPD (Personal Data Protection Decree): Cadrul de protecție a datelor cu caracter personal din 2023 al Vietnamului acoperă prelucrarea datelor cu caracter personal ale rezidenților vietnamezi de către organizațiile care operează în sau vizează Vietnamul.
Pentru companiile BPO și organizațiile globale care servesc clienți din APAC, aceste reglementări creează aceeași cerință fundamentală: PII din datele clienților trebuie identificat și protejat în mod corespunzător. Cerința se aplică indiferent de limba pe care a folosit-o clientul.
Problema volumului de 500.000 de chat-uri
O fintech din Singapore care procesează 500.000 de jurnale de chat de asistență pentru clienți lunar în 12 limbi APAC se confruntă cu o provocare operațională specifică: obligația lor de conformitate acoperă toate cele 500.000 de interacțiuni, dar instrumentul lor de detectare PII acoperă cu exactitate doar subsetul în limba engleză.
Dacă 30% din interacțiuni sunt în limba engleză și instrumentul atinge o precizie de detectare de 90% pentru PII în limba engleză, instrumentul protejează cu succes 135.000 de interacțiuni. Cele 365.000 de interacțiuni non-engleze rămase — reprezentând date de clienți în limba thailandeză, indoneziană, vietnameză, filipineză, malaieză, coreeană, japoneză și alte limbi — trec prin cu detectare minimă de PII.
Postura de conformitate: 73% din interacțiunile lunare nu sunt protejate în mod adecvat, chiar dacă obligația de conformitate acoperă toate cele 500.000.
Revizuirea manuală a 365.000 de interacțiuni non-engleze la orice rată rezonabilă de revizuire umană nu este fezabilă din punct de vedere operațional. Organizația are nevoie de detectare automată de PII care să acopere mixul lor real de limbi, nu doar limba engleză.
Ce oferă arhitectura multilingvă
XLM-RoBERTa — un model transformer multilingv antrenat pe text din peste 100 de limbi — oferă recunoaștere de entități care se generalizează peste granițele limbilor. Un model antrenat pe corpora multilingve învață că nume, locații și organizații împărtășesc modele structurale în diferite limbi, chiar și atunci când formele de suprafață diferă complet.
Pentru limbile APAC:
- Indonesian (ID): XLM-RoBERTa oferă recunoaștere de entități pentru nume de persoane, organizații și locații în Bahasa Indonesia
- Thai (TH): Transfer multilingv din familii de limbi conexe oferă detectare de bază de PII
- Vietnamese (VI): Recunoaștere de entități cu conștientizare a limbii tonale
- Filipino (TL): Acoperire pentru interacțiuni cu clienți în limba Tagalog
Combinată cu modele Stanza specifice limbii pentru limbile în care sunt disponibile modele dedicate, abordarea multilingvă extinde detectarea automată de PII la mixul complet de limbi APAC — nu doar subsetul în limba engleză.
Pentru BPO-uri, implicația de conformitate este măsurabilă: în loc să protejeze 27% din interacțiunile lunare, detectarea multilingvă cuprinzătoare acoperă volumul complet. Sarcina de revizuire manuală scade de la 365.000 de interacțiuni la un eșantion de control al calității.
Surse: