anonym.legal

ทำไมต้อง Regex ไม่ใช่ AI?

เพื่อความสอดคล้องตามกฎระเบียบ คุณต้องการผลลัพธ์ที่สามารถอธิบายและทำซ้ำได้ แนวทางที่กำหนดได้ของเรามอบสิ่งนั้น—ไม่มีกล่องดำ ไม่มีความประหลาดใจ

การเปรียบเทียบโดยละเอียด

We use the best tool for each job: deterministic regex patterns for structured data, and proven ML models for names and entities. Built on Microsoft Presidio.

Entity TypeDetection MethodExamples
ข้อมูลที่มีโครงสร้าง
รูปแบบ Regex
อีเมล, หมายเลขประจำตัวประชาชน, บัตรเครดิต, IBAN, หมายเลขโทรศัพท์
ชื่อ & องค์กร
โมเดล ML (spaCy, Stanza)
ชื่อบุคคล, ชื่อบริษัท, สถานที่
48 ภาษา
XLM-RoBERTa
การรู้จำเอนทิตีข้ามภาษา
การทำซ้ำได้
สามารถทำซ้ำได้ 100%
ข้อมูลนำเข้าที่เหมือนกัน = ผลลัพธ์ที่เหมือนกัน, ทุกครั้ง
การตรวจจับชื่อ
ความแม่นยำสูง ML
โมเดล NLP ที่พิสูจน์แล้วพร้อมคะแนนความมั่นใจ
การตรวจสอบได้
+สามารถตรวจสอบได้เต็มที่
ตำแหน่ง, ประเภท, ความมั่นใจสำหรับทุกเอนทิตี

การทำงานของการจับคู่รูปแบบ

แต่ละประเภทเอนทิตีมีรูปแบบ regex ที่ถูกสร้างขึ้นอย่างรอบคอบซึ่งตรงกับรูปแบบเฉพาะ

ที่อยู่อีเมล

[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

ตรงกับรูปแบบอีเมลมาตรฐาน: local-part@domain.tld

หมายเลขบัตรเครดิต

\b(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|...)\b

ตรงกับ Visa, Mastercard, Amex และรูปแบบบัตรอื่น ๆ ที่มีการตรวจสอบ Luhn

IBAN เยอรมัน

DE[0-9]{2}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{2}

ตรงกับรูปแบบ IBAN เยอรมันที่มีช่องว่างตามต้องการ

สร้างขึ้นเพื่อความสอดคล้อง

เมื่อผู้ตรวจสอบถามว่า "ทำไมถึงตรวจจับสิ่งนี้?" คุณต้องการคำตอบที่ชัดเจน แนวทางที่ใช้ regex ของเรามอบสิ่งนั้น

  • GDPR มาตรา 25: ความเป็นส่วนตัวโดยการออกแบบด้วยการประมวลผลที่อธิบายได้
  • ISO 27001: กระบวนการที่มีเอกสารและทำซ้ำได้
  • Audit Trail: การตรวจจับแต่ละครั้งสามารถติดตามไปยังรูปแบบเฉพาะ

ตัวอย่างการตอบกลับการตรวจสอบ

Q: ทำไม "john.smith@company.com" ถึงถูกทำเครื่องหมาย?
A: ตรงกับรูปแบบอีเมลที่ตำแหน่ง 45-68 ด้วยความมั่นใจ 0.95 รูปแบบ: การตรวจสอบรูปแบบอีเมลมาตรฐาน

สัมผัสการตรวจจับที่กำหนดได้

ทดลองการตรวจจับ PII โดยใช้ regex ฟรีด้วย 200 โทเค็นต่อรอบ