Zpět na blogTechnické

Falešně pozitivní výsledky v daňové oblasti...

Daňové dokumenty obsahují čísla která připomínají PII ale nejsou. 22% FP sazba v daňových dokumentech stojí compliance týmy hodiny přezkumu.

April 3, 20268 min čtení
false positive ratePresidio precisionPII detection accuracyscore threshold configurationhybrid detection

Daňové dokumenty: Zvláštní výzva pro PII detekci

Daňové dokumenty jsou plné čísel, dat a alfanumerických kódů – mnohé z nichž připomínají PII formáty ale nejsou PII.

Tento kontextový problém způsobuje vysoké falešně pozitivní sazby bez doménového přizpůsobení.

Nejčastější FP v daňových dokumentech

1. Daňové kódy jako ID

„§ 22 odst. 1 písm. b)" může být parsováno jako fragmenty ID nebo kódů. „Řádek 12a" může konfliktovat s ID vzory.

2. Daňová ID jako telefony

Německý Steuernummer: „21/815/08150" – lomítka připomínají telefonní čísla. Britský UTR (Unique Taxpayer Reference): 10 číslic – připomíná SSN.

3. Finanční rok jako datum PHI

„Zdaňovací období 01/2024" → DATE detekce Ale není to PII datum – je to referenční rok.

4. Firemní daňové ID jako osobní

IČO firmy: „12345678" (8 číslic) → podobné formátu osobního ID DIČ: „CZ12345678" → může být zaměněno za passport číslo

Výsledky benchmarku: Daňové dokumenty

NástrojFP sazbaPřezkum č./1000 dok
Vanilla Presidio22,4%224
AWS Comprehend17,8%178
Google DLP19,3%193
anonym.legal (daňový preset)4,1%41

Konfigurace pro daňové dokumenty

Whitelistování daňových kódů

{
  "domain": "tax",
  "whitelist": {
    "patterns": [
      "§\s*\d+",
      "Řádek\s+\d+[a-z]?",
      "§ \d+ odst\.? \d+",
      "ZDP", "DPH", "DPP"
    ]
  }
}

Kontextové pravidla

{
  "contextRules": [
    {
      "entity": "DATE",
      "exclude_if_context": ["zdaňovací", "účetní", "daňové"],
      "include_only_personal": true
    },
    {
      "entity": "ID",
      "company_id_patterns": ["^\d{8}$"],
      "exclude_company_ids": true
    }
  ]
}

Závěr

Daňové dokumenty vyžadují doménové přizpůsobení PII detekce. Bez optimalizace, 22%+ FP sazba způsobuje stovky zbytečných manuálních přezkumů měsíčně.

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.