Tilbake til BloggTeknisk

APAC Databeskyttelse: Hvorfor ditt engelske...

Et fintech-selskap i Singapore som behandler 500 000 månedlige supportchatter på 12 APAC-språk fant ut at deres engelskspråklige verktøy overså PII...

March 24, 20267 min lesing
APAC PII detectionThai PIIIndonesian data privacyVietnamese NERPDPA compliance

BPO Språkproblemet

Business Process Outsourcing-selskaper opererer i den flerspråklige virkeligheten av APAC kundestøtte. Når en kunde i Thailand kontakter støtte på thai, når en indonesisk kunde skriver på Bahasa Indonesia, når en vietnamesisk kunde bruker vietnamesisk — blir chatloggen opprettet på det språket. Og når disse chatloggene analyseres for kvalitetssikring, opplæring eller samsvarsrevisjon, er PII de inneholder på det språket.

Engelsksentrerte PII-detekteringsverktøy ble ikke bygget for dette miljøet. Deres enhetsgjenkjennere ble trent på engelsk tekst. Deres navnedeteksjonsmodeller lærte engelske navnemønstre. Deres adressegjenkjenning ble trent på engelskspråklige adresseformater.

Når de brukes på thailandske, indonesiske eller vietnamesiske chatlogger, produserer disse verktøyene nesten null deteksjonsrater for språkspesifik PII. Et thailandsk kundens navn, skrevet med thailandsk skrift, er usynlig for en modell som lærte navn fra engelsk tekst. En indonesisk adresse, som følger indonesiske adressekonvensjoner, samsvarer ikke med mønstrene en engelsktrent adressegjenkjenner forventer.

Samsvarsrisikoene i APAC

Databeskyttelsesregler i APAC skaper samsvarsforpliktelser for organisasjoner som behandler kunders PII:

Thailand PDPA (Personvernloven): Gjeldende siden 2022, pålegger Thailands PDPA krav til dataminimering, samtykke og sikkerhetstiltak for organisasjoner som behandler personopplysninger om thailandske innbyggere. Kundestøttelogger som inneholder thailandske navn, adresser og kontaktinformasjon faller inn under PDPA-omfanget.

Indonesia PDPLov: Indonesias omfattende Personvernlov skaper forpliktelser for organisasjoner som behandler personopplysninger om indonesiske innbyggere, inkludert krav til passende sikkerhetstiltak.

Vietnam PDPD (Personverndekret): Vietnams personverndekret fra 2023 dekker behandlingen av personopplysninger om vietnamesiske innbyggere av organisasjoner som opererer i eller retter seg mot Vietnam.

For BPO-selskaper og globale organisasjoner som betjener APAC-kunder, skaper disse forskriftene det samme grunnleggende kravet: PII i kundedata må identifiseres og beskyttes på riktig måte. Kravet gjelder uavhengig av hvilket språk kunden brukte.

Problemet med 500 000 chatter

Et fintech-selskap basert i Singapore som behandler 500 000 kundestøttelogger månedlig på 12 APAC-språk står overfor en spesifikk operasjonell utfordring: deres samsvarsforpliktelse dekker alle 500 000 interaksjoner, men deres PII-detekteringsverktøy dekker nøyaktig bare den engelskspråklige undergruppen.

Hvis 30 % av interaksjonene er på engelsk og verktøyet oppnår 90 % deteksjonsnøyaktighet for engelsk PII, beskytter verktøyet 135 000 interaksjoner. De resterende 365 000 ikke-engelske interaksjonene — som representerer thailandske, indonesiske, vietnamesiske, filippinske, malaysiske, koreanske, japanske og andre språklige kundedata — passerer med minimal PII-detektering.

Samsvarsposisjonen: 73 % av månedlige interaksjoner er ikke tilstrekkelig beskyttet, selv om samsvarsforpliktelsen dekker alle 500 000.

Manuell gjennomgang av 365 000 ikke-engelske interaksjoner til en rimelig menneskelig gjennomgangsrate er ikke operasjonelt gjennomførbart. Organisasjonen trenger automatisert PII-detektering som dekker deres faktiske språkblanding, ikke bare engelsk.

Hva tverrspråklig arkitektur gir

XLM-RoBERTa — en tverrspråklig transformer-modell trent på tekst fra 100+ språk — gir enhetsgjenkjenning som generaliserer på tvers av språkgrenser. En modell trent på flerspråklige korpora lærer at navn, steder og organisasjoner deler strukturelle mønstre på tvers av språk, selv når overflateskjemaene er helt forskjellige.

For APAC-språk:

  • Indonesisk (ID): XLM-RoBERTa gir enhetsgjenkjenning for personnavn, organisasjoner og steder på Bahasa Indonesia
  • Thai (TH): Tverrspråklig overføring fra beslektede språkfamilier gir grunnleggende PII-detektering
  • Vietnamesisk (VI): Enhetsgjenkjenning med tonal språkbevissthet
  • Filippinsk (TL): Dekning for kundesamtaler på tagalog

Kombinert med språkspesifikke Stanza-modeller for språk der dedikerte modeller er tilgjengelige, utvider den tverrspråklige tilnærmingen automatisert PII-detektering til hele APAC-språkblandingen — ikke bare den engelske undergruppen.

For BPO-er er samsvarsimplikasjonen målbar: i stedet for å beskytte 27 % av månedlige interaksjoner, dekker omfattende flerspråklig deteksjon hele volumet. Den manuelle gjennomgangsbyrden reduseres fra 365 000 interaksjoner til et kvalitetskontrollprøve.

Kilder:

Klar til å beskytte dataene dine?

Begynn å anonymisere PII med 285+ enhetstyper på 48 språk.