Tillbaka till BloggenTeknisk

APAC Dataskydd: Varför ditt engelska PII-verktyg...

Ett fintech-företag i Singapore som hanterar 500 000 supportchattar varje månad på 12 APAC-språk upptäckte att deras engelska verktyg missade PII i...

March 24, 20267 min läsning
APAC PII detectionThai PIIIndonesian data privacyVietnamese NERPDPA compliance

Problemet med BPO-språk

Företag inom Business Process Outsourcing verkar i den flerspråkiga verkligheten av APAC-kundsupport. När en kund i Thailand kontaktar support på thailändska, när en indonesisk kund skriver på Bahasa Indonesia, när en vietnamesisk kund använder vietnamesiska — skapas chattloggen på det språket. Och när dessa chattloggar analyseras för kvalitetskontroll, träning eller efterlevnadsrevision, är den PII de innehåller på det språket.

Engelska centrerade PII-detekteringsverktyg byggdes inte för denna miljö. Deras entitetsigenkännare tränades på engelsk text. Deras namndetekteringsmodeller lärde sig engelska namn mönster. Deras adressdetektering tränades på engelska adressformat.

Tillämpade på thailändska, indonesiska eller vietnamesiska chattloggar producerar dessa verktyg nästan noll detektionsgrader för språk-specifik PII. Ett thailändskt kundnamn, skrivet i thailändsk skrift, är osynligt för en modell som lärde sig namn från engelsk text. En indonesisk adress, som följer indonesiska adresskonventioner, matchar inte de mönster som en engelsktränad adressigenkännare förväntar sig.

Efterlevnadsriskerna i APAC

Dataskyddsregleringar över APAC skapar efterlevnadsförpliktelser för organisationer som hanterar kund-PII:

Thailand PDPA (Personuppgiftslag): Gäller sedan 2022, Thailands PDPA ålägger krav på dataminimering, samtycke och säkerhetsåtgärder för organisationer som hanterar thailändska medborgares personuppgifter. Kundsupportloggar som innehåller thailändska namn, adresser och kontaktinformation faller under PDPA:s tillämpningsområde.

Indonesien PDPLag: Indonesiens omfattande lag om personuppgiftsskydd skapar skyldigheter för organisationer som hanterar indonesiska medborgares personuppgifter, inklusive krav på lämpliga säkerhetsåtgärder.

Vietnam PDPD (Förordning om personuppgiftsskydd): Vietnams 2023 ramverk för personuppgiftsskydd omfattar hantering av vietnamesiska medborgares personuppgifter av organisationer som verkar i eller riktar sig till Vietnam.

För BPO-företag och globala organisationer som betjänar APAC-kunder skapar dessa regleringar samma grundläggande krav: PII i kunddata måste identifieras och skyddas på rätt sätt. Kravet gäller oavsett vilket språk kunden använde.

Problemet med 500 000 chattar

Ett fintech-företag baserat i Singapore som hanterar 500 000 kundsupportchattloggar varje månad på 12 APAC-språk står inför en specifik operationell utmaning: deras efterlevnadsförpliktelse omfattar alla 500 000 interaktioner, men deras PII-detekteringsverktyg täcker endast den engelskspråkiga delmängden korrekt.

Om 30 % av interaktionerna är på engelska och verktyget uppnår 90 % detektionsnoggrannhet för engelsk PII, skyddar verktyget framgångsrikt 135 000 interaktioner. De återstående 365 000 icke-engelska interaktionerna — som representerar thailändska, indonesiska, vietnamesiska, filippinska, malaysiska, koreanska, japanska och andra språk kunddata — passerar med minimal PII-detektering.

Den efterlevnadsställning: 73 % av de månatliga interaktionerna är inte tillräckligt skyddade, även om efterlevnadsförpliktelsen omfattar alla 500 000.

Manuell granskning av 365 000 icke-engelska interaktioner vid en rimlig mänsklig granskningshastighet är inte operationellt genomförbar. Organisationen behöver automatiserad PII-detektering som täcker deras faktiska språkblandning, inte bara engelska.

Vad tvärspråklig arkitektur erbjuder

XLM-RoBERTa — en tvärspråklig transformer-modell tränad på text från över 100 språk — erbjuder entitetsigenkänning som generaliserar över språkgränser. En modell som tränats på flerspråkiga korpus lär sig att namn, platser och organisationer delar strukturella mönster över språk, även när ytliga former skiljer sig helt.

För APAC-språk:

  • Indonesiska (ID): XLM-RoBERTa erbjuder entitetsigenkänning för personnamn, organisationer och platser på Bahasa Indonesia
  • Thailändska (TH): Tvärspråklig överföring från relaterade språkfamiljer ger grundläggande PII-detektering
  • Vietnamesiska (VI): Entitetsigenkänning med medvetenhet om tonala språk
  • Filippinska (TL): Täckning för kundinteraktioner på tagalog

Kombinerat med språk-specifika Stanza-modeller för språk där dedikerade modeller finns tillgängliga, sträcker sig den tvärspråkliga metoden för automatiserad PII-detektering till hela APAC:s språkblandning — inte bara den engelska delmängden.

För BPO:er är efterlevnadsimplikationen mätbar: istället för att skydda 27 % av de månatliga interaktionerna, omfattar omfattande flerspråkig detektion hela volymen. Den manuella granskningsbördan minskar från 365 000 interaktioner till ett kvalitetskontrollprov.

Källor:

Redo att skydda din data?

Börja anonymisera PII med 285+ entitetstyper på 48 språk.