왜 AI가 아닌 정규 표현식인가요?
규제 준수를 위해서는 설명하고 재현할 수 있는 결과가 필요합니다. 우리의 결정론적 접근 방식은 바로 그것을 제공합니다—블랙 박스도, 놀라움도 없습니다.
상세 비교
We use the best tool for each job: deterministic regex patterns for structured data, and proven ML models for names and entities. Built on Microsoft Presidio.
| Entity Type | Detection Method | Examples |
|---|---|---|
| 구조화된 데이터 | 정규 표현식 패턴 | 이메일, 사회 보장 번호, 신용 카드, IBAN, 전화번호 |
| 이름 및 조직 | ML 모델 (spaCy, Stanza) | 인명, 회사 이름, 위치 |
| 48개 언어 | XLM-RoBERTa | 다국어 개체 인식 |
| 재현성 | 100% 재현 가능 | 같은 입력 = 매번 같은 출력 |
| 이름 감지 | 높은 정확도의 ML | 신뢰도 점수가 있는 검증된 NLP 모델 |
| 감사 가능성 | +완전한 감사 가능 | 모든 개체에 대한 위치, 유형, 신뢰도 |
패턴 매칭 작동 방식
각 엔티티 유형은 특정 형식과 일치하는 정교하게 제작된 정규 표현식 패턴을 가지고 있습니다.
이메일 주소
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}표준 이메일 형식과 일치: local-part@domain.tld
신용 카드 번호
\b(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|...)\bVisa, Mastercard, Amex 및 Luhn 검증이 포함된 기타 카드 형식과 일치
독일 IBAN
DE[0-9]{2}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{2}선택적 공백이 포함된 독일 IBAN 형식과 일치
준수를 위해 설계됨
감사자가 "왜 이것이 탐지되었나요?"라고 물을 때 명확한 답변이 필요합니다. 우리의 정규 표현식 기반 접근 방식이 바로 그것을 제공합니다.
- GDPR 제25조: 설명 가능한 처리로 설계된 프라이버시
- ISO 27001: 문서화된, 반복 가능한 프로세스
- 감사 추적: 모든 탐지는 특정 패턴에 추적될 수 있음
예시 감사 응답
Q: "john.smith@company.com"이 왜 플래그가 되었나요?
A: 위치 45-68에서 신뢰도 0.95로 이메일 패턴과 일치. 패턴: 표준 이메일 형식 검증.