ปัญหาตัวระบุภายใน
ตัวระบุมาตรฐาน (SSN, email, phone) ตรวจจับได้ง่าย แต่ทุกองค์กรมีตัวระบุเฉพาะ:
- Employee ID: EMP-XXXXX
- Order Number: ORD-YYYYMMDD-NNNNN
- Account Number: ACC-XXXXXXXXXX
- Support Ticket: TKT-NNNNN
ในระบบ CRM เหล่านี้ข้อมูลระบุตัวตนได้ทันที
การสร้าง Custom Entity Types
- กำหนด pattern regex สำหรับตัวระบุแต่ละประเภท
- กำหนดระดับ confidence
- ทดสอบกับข้อมูลจริง
- deploy เป็น preset ที่ใช้ร่วมกันได้
ตัวอย่างปฏิบัติ
บริษัทประกันภัยที่มี claim number รูปแบบ CLM-YYYY-NNNNNNN สามารถเพิ่ม custom entity type ที่จะจับคู่กับ pattern นี้ในเอกสารทุกประเภท
แหล่งที่มา: