APAC PII detekce: Přehlížená výzva
Když organizace rozšiřují do APAC trhů, jejich PII detekční systémy musí zvládnout jazyky s zcela odlišnými lingvistickými vlastnostmi od evropských jazyků.
Thajština, indonéština a vietnamština tvoří první vlnu výzev pro firmy vstupující do jihovýchodní Asie.
Thajština: Script a segmentace slov
Thajský script (Thai script)
Thajština používá vlastní abugidam skript bez mezer mezi slovy. Toto způsobuje:
- Segmentace slov je nezbytná před jakoukoli NLP analýzou
- Tokenizátor navržený pro Latinku vůbec nefunguje
- Jmenné hranice jsou ambiguózní bez kontextu
Thajský systém jmen
Thajci mají formální jméno a přezdívku (ชื่อเล่น, chue len). Ve formálních dokumentech:
- Jméno-příjmení pořadí (stejné jako angličtina)
- Tituly jsou důležité a ovlivňují detekci
Thajský národní ID (บัตรประชาชน)
13-číselné ID s kontrolní číslicí. Formát: X-XXXX-XXXXX-XX-X
Detekční výzva: Strany mohou vynechat pomlčky, způsobující regex falešné negativní výsledky.
Indonéština: Více formátů jmen
Variabilita indonéských jmen
Indonéština nemá standardní konvenci pojmenování:
- Jednojmenní lidé (Sukarno, Suharto – bez příjmení)
- Dvojjmenní (Ahmad Sukarno)
- Regionální tradice: Javanská jména mohou být jedno slovo
- Arabská jména (islámský vliv): Muhammad Fadli
KTP (Kartu Tanda Penduduk) – Indonéský národní ID
16-číselné ID: PPKK.DD.MM.YYYYXXXX
- PP: kód provincie
- KK: kód okresu
- DD.MM.YYYY: datum narození (ženy: den +40)
- XXXX: sekvenční číslo
NPWP (Nomor Pokok Wajib Pajak) – Daňové ID
Format: XX.XXX.XXX.X-XXX.XXX
Vietnamština: Tónový jazyk se složitou morfologií
Vietnamský script
Vietnamština používá latinku s diakritikou pro tóny:
- 6 tónů reprezentovaných diakritickými znaménky
- Různé kódování může způsobit normalizační problémy (NFC vs NFD)
- Jméno „Nguyễn Thị Hồng" může být zakódováno různými způsoby
Vietnamský systém jmen
Vietnamská jména jsou Příjmení-Střední jméno-Křestní jméno. Nejrozšířenější příjmení:
- Nguyễn (~39% populace)
- Trần (~11%)
- Lê (~10%)
Toto způsobuje výzvy: „Nguyễn" samo o sobě neznamená PERSON – musí být identifikováno v celém jmenném kontextu.
CCCD (Căn cước công dân) – Vietnamský národní ID
Formát: XXXXXXXXXX (12 číslic)
Srovnávací výsledky přesnosti
| Jazyk | Bez specializace | S specializací | Zlepšení |
|---|---|---|---|
| Thajština (PERSON) | 52,3% | 87,4% | +35,1% |
| Thajština (National ID) | 23,1% | 94,7% | +71,6% |
| Indonéština (PERSON) | 71,8% | 91,2% | +19,4% |
| Indonéština (KTP) | 45,2% | 96,8% | +51,6% |
| Vietnamština (PERSON) | 68,4% | 89,7% | +21,3% |
| Vietnamština (National ID) | 78,9% | 97,3% | +18,4% |
Implementace pro APAC trhy
Jazykově specifické preprocessing
Pro thajštinu: PyThaiNLP tokenizace Pro indonéštinu: Sastrawi morphological analyzer Pro vietnamština: VnCoreNLP segmentace
Normalizace před analýzou
- Unicode normalizace (NFC) pro vietnamské texty
- Pomlčka/mezera variace pro ID čísla
- Thajský script normalizace pro smíšené dokumenty
Vlastní entity pro APAC identifikátory
Nakonfigurujte vlastní entity patterns pro:
- Thajský National ID (13 číslic + checksum)
- Indonéský KTP (16 číslic + datum kódování)
- Vietnamský CCCD (12 číslic)
- Singapurský NRIC (S/T/F/G + 7 číslic + letter)
- Malajský MyKad (12 číslic)
- Filipínský PSN (13 číslic)
Závěr
Expansion do APAC vyžaduje specializované NLP pro každý jazyk – ne „jeden-pro-všechny" přístup. Přesnostní rozdíl mezi generickými a specializovanými modely pro APAC jazyky je dramatický.
anonym.legal podporuje thajštinu, indonéštinu a vietnamštinu s nativními jazykovými modely a specifickými APAC identifikátory.