ปัญหา: False Positive ของ Tax ID
German Steuer-ID (11 หลัก)
โครงสร้าง: ab cde fgh ijk (ว่างห่างจากตำแหน่ง 2, 5, 8, 11)
Checksum algorithm:
- ใช้ Luhn + modulo 11
- ตัวเลข 1-10: คูณสลับด้วย 2 และ 3
- ตัวเลข 11: checksum
French NIR (15 หลัก)
โครงสร้าง: YYMMDDCCOOOSSS
- YY: Year of birth
- MM: Month (01-12)
- DD: Day (01-31)
Checksum: 97 - (NIR mod 97)
Spanish DNI (9 chars)
โครงสร้าง: XXXXXXXX-L
- 8 หลัก
- 1 ตัวอักษร (เฉพาะสำหรับแต่ละ modulo 23)
ผลกระทบ
บันทึก 1,000,000 ต่อเดือน:
| Regex tool | false positive | Redacted ที่ไม่ถูกต้อง |
|---|---|---|
| Typical regex | 4% | 40,000 records |
| anonym.legal + checksum | 0.1% | 1,000 records |