Daňové dokumenty: Zvláštní výzva pro PII detekci
Daňové dokumenty jsou plné čísel, dat a alfanumerických kódů – mnohé z nichž připomínají PII formáty ale nejsou PII.
Tento kontextový problém způsobuje vysoké falešně pozitivní sazby bez doménového přizpůsobení.
Nejčastější FP v daňových dokumentech
1. Daňové kódy jako ID
„§ 22 odst. 1 písm. b)" může být parsováno jako fragmenty ID nebo kódů. „Řádek 12a" může konfliktovat s ID vzory.
2. Daňová ID jako telefony
Německý Steuernummer: „21/815/08150" – lomítka připomínají telefonní čísla. Britský UTR (Unique Taxpayer Reference): 10 číslic – připomíná SSN.
3. Finanční rok jako datum PHI
„Zdaňovací období 01/2024" → DATE detekce Ale není to PII datum – je to referenční rok.
4. Firemní daňové ID jako osobní
IČO firmy: „12345678" (8 číslic) → podobné formátu osobního ID DIČ: „CZ12345678" → může být zaměněno za passport číslo
Výsledky benchmarku: Daňové dokumenty
| Nástroj | FP sazba | Přezkum č./1000 dok |
|---|---|---|
| Vanilla Presidio | 22,4% | 224 |
| AWS Comprehend | 17,8% | 178 |
| Google DLP | 19,3% | 193 |
| anonym.legal (daňový preset) | 4,1% | 41 |
Konfigurace pro daňové dokumenty
Whitelistování daňových kódů
{
"domain": "tax",
"whitelist": {
"patterns": [
"§\s*\d+",
"Řádek\s+\d+[a-z]?",
"§ \d+ odst\.? \d+",
"ZDP", "DPH", "DPP"
]
}
}
Kontextové pravidla
{
"contextRules": [
{
"entity": "DATE",
"exclude_if_context": ["zdaňovací", "účetní", "daňové"],
"include_only_personal": true
},
{
"entity": "ID",
"company_id_patterns": ["^\d{8}$"],
"exclude_company_ids": true
}
]
}
Závěr
Daňové dokumenty vyžadují doménové přizpůsobení PII detekce. Bez optimalizace, 22%+ FP sazba způsobuje stovky zbytečných manuálních přezkumů měsíčně.