ทำไมต้อง Regex ไม่ใช่ AI?
เพื่อความสอดคล้องตามกฎระเบียบ คุณต้องการผลลัพธ์ที่สามารถอธิบายและทำซ้ำได้ แนวทางที่กำหนดได้ของเรามอบสิ่งนั้น—ไม่มีกล่องดำ ไม่มีความประหลาดใจ
การเปรียบเทียบโดยละเอียด
We use the best tool for each job: deterministic regex patterns for structured data, and proven ML models for names and entities. Built on Microsoft Presidio.
| Entity Type | Detection Method | Examples |
|---|---|---|
| ข้อมูลที่มีโครงสร้าง | รูปแบบ Regex | อีเมล, หมายเลขประจำตัวประชาชน, บัตรเครดิต, IBAN, หมายเลขโทรศัพท์ |
| ชื่อ & องค์กร | โมเดล ML (spaCy, Stanza) | ชื่อบุคคล, ชื่อบริษัท, สถานที่ |
| 48 ภาษา | XLM-RoBERTa | การรู้จำเอนทิตีข้ามภาษา |
| การทำซ้ำได้ | สามารถทำซ้ำได้ 100% | ข้อมูลนำเข้าที่เหมือนกัน = ผลลัพธ์ที่เหมือนกัน, ทุกครั้ง |
| การตรวจจับชื่อ | ความแม่นยำสูง ML | โมเดล NLP ที่พิสูจน์แล้วพร้อมคะแนนความมั่นใจ |
| การตรวจสอบได้ | +สามารถตรวจสอบได้เต็มที่ | ตำแหน่ง, ประเภท, ความมั่นใจสำหรับทุกเอนทิตี |
การทำงานของการจับคู่รูปแบบ
แต่ละประเภทเอนทิตีมีรูปแบบ regex ที่ถูกสร้างขึ้นอย่างรอบคอบซึ่งตรงกับรูปแบบเฉพาะ
ที่อยู่อีเมล
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}ตรงกับรูปแบบอีเมลมาตรฐาน: local-part@domain.tld
หมายเลขบัตรเครดิต
\b(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|...)\bตรงกับ Visa, Mastercard, Amex และรูปแบบบัตรอื่น ๆ ที่มีการตรวจสอบ Luhn
IBAN เยอรมัน
DE[0-9]{2}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{2}ตรงกับรูปแบบ IBAN เยอรมันที่มีช่องว่างตามต้องการ
สร้างขึ้นเพื่อความสอดคล้อง
เมื่อผู้ตรวจสอบถามว่า "ทำไมถึงตรวจจับสิ่งนี้?" คุณต้องการคำตอบที่ชัดเจน แนวทางที่ใช้ regex ของเรามอบสิ่งนั้น
- GDPR มาตรา 25: ความเป็นส่วนตัวโดยการออกแบบด้วยการประมวลผลที่อธิบายได้
- ISO 27001: กระบวนการที่มีเอกสารและทำซ้ำได้
- Audit Trail: การตรวจจับแต่ละครั้งสามารถติดตามไปยังรูปแบบเฉพาะ
ตัวอย่างการตอบกลับการตรวจสอบ
Q: ทำไม "john.smith@company.com" ถึงถูกทำเครื่องหมาย?
A: ตรงกับรูปแบบอีเมลที่ตำแหน่ง 45-68 ด้วยความมั่นใจ 0.95 รูปแบบ: การตรวจสอบรูปแบบอีเมลมาตรฐาน
สัมผัสการตรวจจับที่กำหนดได้
ทดลองการตรวจจับ PII โดยใช้ regex ฟรีด้วย 200 โทเค็นต่อรอบ