Zpět na blogTechnické

Detekce PII v APAC: Výzvy thajštiny...

Thajština, indonéština a vietnamština představují jedinečné výzvy pro NER a detekci PII.

March 24, 20267 min čtení
APAC PII detectionThai PIIIndonesian data privacyVietnamese NERPDPA compliance

APAC PII detekce: Přehlížená výzva

Když organizace rozšiřují do APAC trhů, jejich PII detekční systémy musí zvládnout jazyky s zcela odlišnými lingvistickými vlastnostmi od evropských jazyků.

Thajština, indonéština a vietnamština tvoří první vlnu výzev pro firmy vstupující do jihovýchodní Asie.

Thajština: Script a segmentace slov

Thajský script (Thai script)

Thajština používá vlastní abugidam skript bez mezer mezi slovy. Toto způsobuje:

  • Segmentace slov je nezbytná před jakoukoli NLP analýzou
  • Tokenizátor navržený pro Latinku vůbec nefunguje
  • Jmenné hranice jsou ambiguózní bez kontextu

Thajský systém jmen

Thajci mají formální jméno a přezdívku (ชื่อเล่น, chue len). Ve formálních dokumentech:

  • Jméno-příjmení pořadí (stejné jako angličtina)
  • Tituly jsou důležité a ovlivňují detekci

Thajský národní ID (บัตรประชาชน)

13-číselné ID s kontrolní číslicí. Formát: X-XXXX-XXXXX-XX-X

Detekční výzva: Strany mohou vynechat pomlčky, způsobující regex falešné negativní výsledky.

Indonéština: Více formátů jmen

Variabilita indonéských jmen

Indonéština nemá standardní konvenci pojmenování:

  • Jednojmenní lidé (Sukarno, Suharto – bez příjmení)
  • Dvojjmenní (Ahmad Sukarno)
  • Regionální tradice: Javanská jména mohou být jedno slovo
  • Arabská jména (islámský vliv): Muhammad Fadli

KTP (Kartu Tanda Penduduk) – Indonéský národní ID

16-číselné ID: PPKK.DD.MM.YYYYXXXX

  • PP: kód provincie
  • KK: kód okresu
  • DD.MM.YYYY: datum narození (ženy: den +40)
  • XXXX: sekvenční číslo

NPWP (Nomor Pokok Wajib Pajak) – Daňové ID

Format: XX.XXX.XXX.X-XXX.XXX

Vietnamština: Tónový jazyk se složitou morfologií

Vietnamský script

Vietnamština používá latinku s diakritikou pro tóny:

  • 6 tónů reprezentovaných diakritickými znaménky
  • Různé kódování může způsobit normalizační problémy (NFC vs NFD)
  • Jméno „Nguyễn Thị Hồng" může být zakódováno různými způsoby

Vietnamský systém jmen

Vietnamská jména jsou Příjmení-Střední jméno-Křestní jméno. Nejrozšířenější příjmení:

  • Nguyễn (~39% populace)
  • Trần (~11%)
  • Lê (~10%)

Toto způsobuje výzvy: „Nguyễn" samo o sobě neznamená PERSON – musí být identifikováno v celém jmenném kontextu.

CCCD (Căn cước công dân) – Vietnamský národní ID

Formát: XXXXXXXXXX (12 číslic)

Srovnávací výsledky přesnosti

JazykBez specializaceS specializacíZlepšení
Thajština (PERSON)52,3%87,4%+35,1%
Thajština (National ID)23,1%94,7%+71,6%
Indonéština (PERSON)71,8%91,2%+19,4%
Indonéština (KTP)45,2%96,8%+51,6%
Vietnamština (PERSON)68,4%89,7%+21,3%
Vietnamština (National ID)78,9%97,3%+18,4%

Implementace pro APAC trhy

Jazykově specifické preprocessing

Pro thajštinu: PyThaiNLP tokenizace Pro indonéštinu: Sastrawi morphological analyzer Pro vietnamština: VnCoreNLP segmentace

Normalizace před analýzou

  • Unicode normalizace (NFC) pro vietnamské texty
  • Pomlčka/mezera variace pro ID čísla
  • Thajský script normalizace pro smíšené dokumenty

Vlastní entity pro APAC identifikátory

Nakonfigurujte vlastní entity patterns pro:

  • Thajský National ID (13 číslic + checksum)
  • Indonéský KTP (16 číslic + datum kódování)
  • Vietnamský CCCD (12 číslic)
  • Singapurský NRIC (S/T/F/G + 7 číslic + letter)
  • Malajský MyKad (12 číslic)
  • Filipínský PSN (13 číslic)

Závěr

Expansion do APAC vyžaduje specializované NLP pro každý jazyk – ne „jeden-pro-všechny" přístup. Přesnostní rozdíl mezi generickými a specializovanými modely pro APAC jazyky je dramatický.

anonym.legal podporuje thajštinu, indonéštinu a vietnamštinu s nativními jazykovými modely a specifickými APAC identifikátory.

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.