Jazyková mezera v BPO
Týmy podpory v APAC zpracovávají chaty v mnoha písmech. Thajsky mluvící zákazníci píší thajsky. Indonésky mluvící zákazníci píší v bahase. Vietnamsky mluvící zákazníci píší vietnamsky.
Tyto záznamy chatů obsahují PII. Jména. Telefonní čísla. Adresy. Čísla identifikátorů. Vše v místním písmu.
Jednojazyčný nástroj zde selže. Jejich modely jsou trénovány na západním textu. Rozpoznávače jmen se naučily latinskopísmenné formy jmen. Modely adres se naučily západní rozvržení adres.
Thajské písmo je pro jednojazyčný model neviditelné. Indonéská adresa neodpovídá latinskopísemným vzorům. Vietnamský tonální text přidává další vrstvu nesouladu. Výsledek: téměř nulové záchyty PII pro ne-latinské záznamy.
Většina chatů APAC není v angličtině. To není okrajová situace. Pro velké BPO firmy je to norma.
Regulační závazky v APAC
Tři zákony o ochraně dat nyní pokrývají tyto regiony. Každý z nich je v platnosti. Každý z nich se vztahuje na BPO firmy, které zpracovávají zákaznická data APAC.
Thajský PDPA: Platný od roku 2022. Vyžaduje minimalizaci dat, souhlas a bezpečnostní kontroly. Záznamy podpory s thajskými jmény spadají do jeho působnosti.
Indonéský PDPLaw: Pokrývá všechny firmy, které zpracovávají data rezidentů. Vyžaduje bezpečnostní opatření pro osobní záznamy.
Vietnamský PDPD: Vietnamský dekret z roku 2023 se vztahuje na jakoukoli firmu, která zpracovává data vietnamských rezidentů. Na umístění firmy nezáleží.
Všechny tři sdílejí jedno základní pravidlo: najděte PII a chraňte je. Toto pravidlo platí v každém písmu, které zákazník používá. Viz náš přehled souladu, jak tyto zákony ovlivňují práci BPO.
Problém 500 000 chatů
Singapurská fintech firma zpracovává 500 000 chatů podpory každý měsíc. Obsluhuje zákazníky ve 12 dialektech APAC. Její právní povinnost pokrývá všech 500 000.
Její nástroj pouze pro angličtinu pokrývá pouze anglicky psanou část.
Řekněme, že 30 % chatů je v angličtině. Řekněme, že přesnost je 90 %. To chrání přibližně 135 000 chatů. Zbývajících 365 000 prochází téměř bez nalezení jakéhokoli PII.
To nechává 73 % chatů nechráněných. Ruční kontrola 365 000 chatů není proveditelná. Samotné náklady na personál ji činí nepraktickou. Automatizované nástroje musí pokrývat skutečnou směs používaných písem — nikoli jen jedno.
Vícejazyčná detekce
XLM-RoBERTa je model trénovaný na více než 100 jazycích. Učí se, že jména, místa a firmy sdílejí vzory napříč různými písmy. Funguje i tehdy, když povrchový text vypadá zcela jinak.
Pokrytí APAC zahrnuje čtyři klíčová písma:
Bahasa Indonesia — nachází jména, firmy a místa. Thajština — základní PII prostřednictvím mezijazykového přenosu. Vietnamština — detekce entit s podporou tonálního písma. Filipínština — pokrytí chatů v tagalogském textu.
Stanza přidává modely pro písma, kde existují. Oba nástroje společně pokrývají celou směs APAC. Ani jeden nevyžaduje samostatný nástroj pro každé písmo. Viz náš průvodce bezpečností pro kroky nastavení.
Dopad na soulad s předpisy je jasný. Místo pokrytí 27 % chatů plná vícejazyčná detekce pokryje všechny. Fronta pro ruční kontrolu klesá ze stovek tisíc na malou vzorkovou kontrolu.
Proč na tom záleží nyní
Thajský PDPA, indonéský PDPLaw a vietnamský PDPD jsou všechny v platnosti. Regulátoři očekávají, že firmy budou nacházet PII v každém písmu, které jejich zákazníci používají.
Jednojazyčný nástroj tuto laťku nesplňuje. Vícejazyčné modely ano. Pro BPO firmy se širokým uživatelským základem v APAC tato mezera hraje roli. Je to hranice mezi právním rizikem a právním krytím.