为什么选择正则表达式,而不是AI?

为了满足监管合规性,您需要可以解释和重现的结果。我们的确定性方法正是提供这一点——没有黑箱,没有惊喜。

详细比较

We use the best tool for each job: deterministic regex patterns for structured data, and proven ML models for names and entities. Built on Microsoft Presidio.

Entity TypeDetection MethodExamples
结构化数据
正则表达式模式
电子邮件、社会安全号码、信用卡、国际银行账户号码、电话号码
姓名与组织
机器学习模型(spaCy, Stanza)
个人姓名、公司名称、地点
48种语言
XLM-RoBERTa
跨语言实体识别
可重复性
100% 可重复
相同输入 = 每次相同输出
姓名检测
高准确率机器学习
经过验证的自然语言处理模型,具有置信分数
可审计性
+完全可审计
每个实体的位置、类型、置信度

模式匹配的工作原理

每种实体类型都有精心设计的正则表达式模式,匹配特定格式。

电子邮件地址

[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

匹配标准电子邮件格式:local-part@domain.tld

信用卡号码

\b(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|...)\b

匹配Visa、万事达、美国运通及其他卡格式,并进行Luhn验证

德国IBAN

DE[0-9]{2}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{2}

匹配带可选空格的德国IBAN格式

为合规性而构建

当审计员问“为什么会检测到这个?”时,您需要一个明确的答案。我们的基于正则表达式的方法正好提供这一点。

  • GDPR第25条:隐私设计,具有可解释的处理
  • ISO 27001:文档化、可重复的流程
  • 审计轨迹:每个检测都可以追溯到特定模式

示例审计响应

问:为什么“john.smith@company.com”被标记?
答:在位置45-68匹配电子邮件模式,置信度0.95。模式:标准电子邮件格式验证。

体验确定性检测

免费试用我们的基于正则表达式的PII检测,每个周期200个令牌。