BPO valodas plaisa
APAC atbalsta komandas apstrādā tērzēšanas daudzos rakstos. Taju lietotāji raksta taju valodā. Indonēzijas lietotāji raksta Bahasa valodā. Vjetnamiešu lietotāji raksta vjetnamiešu valodā.
Šajos tērzēšanas žurnālos atrodas PII. Vārdi. Tālruņa numuri. Adreses. ID numuri. Visi vietējā rakstā.
Vienas valodas rīki šeit neizdodas. To modeļi tika apmācīti uz Rietumu tekstiem. Vārdu meklētāji apguva latīņu raksta vārdu formas. Adrešu modeļi apguva Rietumu adrešu izkārtojumus.
Taju raksts ir neredzams vienvalodas modelim. Indonēzijas adrese neatbilst latīņu raksta modeļiem. Vjetnamiešu tonālais teksts pievieno vēl vienu neatbilstības slāni. Rezultāts: gandrīz nulle PII atrašanu ne-latīņu žurnālos.
Vairums APAC tērzēšanas nav angļu valodā. Šī nav niša plaisa. Lieliem BPO uzņēmumiem tā ir norma.
Atbilstības likmes APAC reģionā
Tri datu likumi tagad aptver šos reģionus. Katrs ir spēkā. Katrs attiecas uz BPO uzņēmumiem, kas apstrādā APAC klientu datus.
Taizemes PDPA: Aktīvs kopš 2022. gada. Prasa datu minimizēšanu, piekrišanu un drošības kontroles. Atbalsta žurnāli ar taju vārdiem ietilpst tā darbības jomā.
Indonēzijas PDPLaw: Aptver visus uzņēmumus, kas apstrādā iedzīvotāju datus. Prasa drošības pasākumus personas ierakstiem.
Vjetnamas PDPD: Vjetnamas 2023. gada dekrēts attiecas uz jebkuru uzņēmumu, kas apstrādā Vjetnamas iedzīvotāju datus. Uzņēmuma atrašanās vieta nav svarīga.
Visiem trim ir viena galvenā kārtula: atrodiet PII un aizsargājiet to. Šī kārtula ir spēkā katrā rakstā, ko lieto klients. Skat. mūsu atbilstības pārskatu, kā šīs likmes ietekmē BPO darbu.
500 000 tērzēšanas problēma
Singapūras fintech uzņēmums veic 500 000 atbalsta tērzēšanas katru mēnesi. Tas apkalpo klientus 12 APAC dialektos. Tā juridiskais pienākums aptver visus 500 000.
Tā tikai angļu valodas rīks aptver tikai angļu daļu.
Pieņemsim, ka 30% tērzēšanas ir angļu valodā. Pieņemsim, ka precizitāte ir 90% tur. Tas aizsargā aptuveni 135 000 tērzēšanas. Pārējās 365 000 cauri iet gandrīz bez PII atrašanas.
Tas atstāj 73% tērzēšanas neaizsargātas. 365 000 tērzēšanas manuālā pārskatīšana nav iespējama. Personāla izmaksas vien padara to nepraktizējamu. Automatizētiem rīkiem ir jāaptver reālā izmantoto rakstu kombinācija, nevis tikai vienu.
Starpvalodu detektēšana
XLM-RoBERTa ir modelis, kas apmācīts vairāk nekā 100 valodās. Tas apgūst, ka vārdi, vietas un uzņēmumi dala modeļus dažādos rakstos. Tas darbojas pat tad, ja virsmas teksts neizskatās līdzīgi.
APAC pārklājums ietver četrus galvenos rakstus:
Bahasa Indonesia - atrod vārdus, uzņēmumus un atrašanās vietas. Taju - bāzlīnijas PII caur starpvalodu pārnešanu. Vjetnamiešu - entītiju detektēšana ar tonālā raksta atbalstu. Filipīniešu - pārklājums tagalog teksta tērzēšanai.
Stanza pievieno modeļus rakstiem, kur tie pastāv. Abi rīki kopā aptver pilno APAC kombināciju. Nevienam nav nepieciešams atsevišķs rīks katram rakstam. Skat. mūsu drošības ceļvedi uzstādīšanas soļiem.
Atbilstības ietekme ir skaidra. Tā vietā, lai aptvertu 27% tērzēšanas, pilnā daudzvalodu detektēšana aptver visas. Manuālās pārskatīšanas rinda samazinās no simtiem tūkstošu līdz nelielai stikla pārbaudei.
Kāpēc tas ir svarīgi tagad
Taizemes PDPA, Indonēzijas PDPLaw un Vjetnamas PDPD visi ir aktīvi. Regulatori sagaida, ka uzņēmumi atradīs PII katrā rakstā, ko lieto to klienti.
Vienvalodas rīki neatbilst šai prasībai. Starpvalodu modeļi to dara. BPO uzņēmumiem ar plašu APAC lietotāju bāzi plaisa ir svarīga. Tā ir robeža starp juridisko risku un juridisko aizsardzību.