Problemet med BPO-sprog
Business Process Outsourcing-virksomheder opererer på tværs af den flersprogede virkelighed i APAC-kundesupport. Når en kunde i Thailand kontakter support på thai, når en indonesisk kunde skriver på Bahasa Indonesia, når en vietnamesisk kunde bruger vietnamesisk — oprettes chatloggen på det sprog. Og når disse chatlogs analyseres for kvalitetssikring, træning eller overholdelsesrevision, er den PII, de indeholder, på det sprog.
Engelsksprogede PII-detekteringsværktøjer blev ikke bygget til dette miljø. Deres entitetsgenkendere blev trænet på engelsk tekst. Deres navnedetekteringsmodeller lærte engelske navnemønstre. Deres adressedetektering blev trænet på engelsksprogede adresseformater.
Anvendt på thailandske, indonesiske eller vietnamesiske chatlogs producerer disse værktøjer næsten nul detektionsrater for sprog-specifik PII. Et thailandsk kundes navn, skrevet i thailandsk skrift, er usynligt for en model, der har lært navne fra engelsk tekst. En indonesisk adresse, der følger indonesiske adressekonventioner, matcher ikke de mønstre, som en engelsk-trænet adresseregistrator forventer.
Overholdelsesindsatsen i APAC
Databeskyttelsesregler i APAC skaber overholdelsesforpligtelser for organisationer, der behandler kunders PII:
Thailand PDPA (Persondata beskyttelseslov): Gældende siden 2022, pålægger Thailands PDPA krav til dataminimering, samtykke og sikkerhedsforanstaltninger for organisationer, der behandler thailandske borgeres persondata. Kundesupportlogs, der indeholder thailandske navne, adresser og kontaktinformation, falder ind under PDPA's anvendelsesområde.
Indonesien PDPLov: Indonesiens omfattende lov om beskyttelse af persondata skaber forpligtelser for organisationer, der behandler indonesiske borgeres persondata, herunder krav til passende sikkerhedsforanstaltninger.
Vietnam PDPD (Persondata beskyttelsesdekret): Vietnams ramme for beskyttelse af persondata fra 2023 dækker behandlingen af vietnamesiske borgeres persondata af organisationer, der opererer i eller retter sig mod Vietnam.
For BPO-virksomheder og globale organisationer, der betjener APAC-kunder, skaber disse regler den samme grundlæggende forpligtelse: PII i kundedata skal identificeres og beskyttes passende. Kravet gælder uanset hvilket sprog kunden brugte.
Problemet med 500.000 chats
Et fintech-selskab med base i Singapore, der behandler 500.000 kundesupportchatlogs månedligt på tværs af 12 APAC-sprog, står over for en specifik operationel udfordring: deres overholdelsesforpligtelse dækker alle 500.000 interaktioner, men deres PII-detekteringsværktøj dækker kun den engelsksprogede del præcist.
Hvis 30% af interaktionerne er på engelsk, og værktøjet opnår 90% detektionsnøjagtighed for engelsk PII, beskytter værktøjet med succes 135.000 interaktioner. De resterende 365.000 ikke-engelske interaktioner — der repræsenterer thailandske, indonesiske, vietnamesiske, filippinske, malaysiske, koreanske, japanske og andre sprog kundedata — passerer igennem med minimal PII-detektion.
Overholdelsespositionen: 73% af de månedlige interaktioner er ikke tilstrækkeligt beskyttet, selvom overholdelsesforpligtelsen dækker alle 500.000.
Manuel gennemgang af 365.000 ikke-engelske interaktioner ved en rimelig menneskelig gennemgangsrate er ikke operationelt muligt. Organisationen har brug for automatiseret PII-detektion, der dækker deres faktiske sprogblanding, ikke kun engelsk.
Hvad tvær-sproglig arkitektur tilbyder
XLM-RoBERTa — en tvær-sproglig transformer-model trænet på tekst fra 100+ sprog — giver entitetsgenkendelse, der generaliserer på tværs af sproggrænser. En model trænet på flersprogede korpora lærer, at navne, steder og organisationer deler strukturelle mønstre på tværs af sprog, selv når overfladeformer adskiller sig helt.
For APAC-sprog:
- Indonesisk (ID): XLM-RoBERTa giver entitetsgenkendelse for personnavne, organisationer og steder på Bahasa Indonesia
- Thai (TH): Tvær-sproglig overførsel fra beslægtede sprogfamilier giver baseline PII-detektion
- Vietnamesisk (VI): Entitetsgenkendelse med tonal sprogbevidsthed
- Filippinsk (TL): Dækning for Tagalog-sprogede kundesupportinteraktioner
Kombineret med sprog-specifikke Stanza-modeller for sprog, hvor dedikerede modeller er tilgængelige, udvider den tvær-sproglige tilgang automatiseret PII-detektion til den fulde APAC-sprogblanding — ikke kun den engelske del.
For BPO'er er overholdelsesimplikationen målbar: i stedet for at beskytte 27% af de månedlige interaktioner dækker omfattende flersproget detektion hele volumen. Den manuelle gennemgangsbyrde falder fra 365.000 interaktioner til et kvalitetskontrolprøve.
Kilder: