Tantangan Deteksi PII untuk Bahasa Asia Tenggara: Thai, Indonesia, Vietnam
Deteksi PII di Asia Tenggara menghadirkan tantangan teknis unik. Bahasa Thai, Indonesia, dan Vietnam memiliki struktur yang sangat berbeda dari bahasa Eropa — dan sebagian besar alat PII belum siap untuk itu.
Karakteristik Linguistik yang Mempengaruhi Deteksi PII
Bahasa Thai:
- Tidak ada spasi antar kata — semuanya mengalir bersama
- Segmentasi kata memerlukan model NLP khusus
- Nama Thai sering berupa kata majemuk panjang
- Tidak ada huruf kapital (tidak ada perbedaan nama/kata biasa)
Bahasa Indonesia:
- Struktur aglutinatif — imbuhan mengubah bentuk kata
- Nama sering memiliki satu elemen (banyak orang Indonesia menggunakan satu nama)
- Format identifier seperti NIK (Nomor Induk Kependudukan) unik untuk Indonesia
- Campur kode Indonesia-Inggris umum dalam dokumen bisnis
Bahasa Vietnam:
- Sistem diakritik kompleks (dấu thanh) — huruf yang sama dengan tanda nada berbeda = kata berbeda
- Urutan nama: Nama keluarga + Nama tengah + Nama depan (kebalikan dari Barat)
- Encoding UTF-8 yang tidak tepat merusak karakter Vietnam
Identifier Nasional yang Harus Dideteksi
| Negara | Identifier | Format |
|---|---|---|
| Thailand | Thai National ID | 13 digit |
| Indonesia | NIK (KTP) | 16 digit |
| Indonesia | NPWP (pajak) | 15 digit |
| Vietnam | Căn cước công dân | 9 atau 12 digit |
| Malaysia | MyKad | 12 digit (YYMMDD-PB-XXXG) |
| Filipina | PhilSys PSN | 16 digit |
| Singapura | NRIC/FIN | S/T/F/G + 7 digit + cek |
Tantangan Kepatuhan Regional
Asia Tenggara memiliki kerangka privasi yang berkembang:
- Thailand: PDPA (Personal Data Protection Act) berlaku sejak 2022
- Indonesia: UU PDP berlaku sejak 2022
- Vietnam: Decree 13/2023 tentang Perlindungan Data Pribadi
- Malaysia: PDPA 2010 (sedang direvisi)
- Filipina: Data Privacy Act 2012
Setiap undang-undang mendefinisikan "data pribadi" dengan cara yang sesuai dengan konteks lokal.
Pendekatan anonym.legal untuk APAC
anonym.legal menggunakan model spaCy yang dilatih secara khusus untuk:
- Segmentasi kata Thai dengan model khusus
- NIK Indonesia dengan validasi checksum (digit ke-7 dan ke-8 menyandikan jenis kelamin dan tanggal lahir)
- Nama Vietnam dengan penanganan diakritik yang benar
- Pola identifier nasional regional khusus
Ini memastikan cakupan PII yang dapat diandalkan untuk operasi APAC.
Sumber:
- PDPA Thailand (2562 BE / 2019)
- UU Perlindungan Data Pribadi Indonesia (2022)
- Decree 13/2023 Vietnam