Zpět na blogTechnické

Proč binární detekce PII selhává v compliance týmu...

Binární PII detekce (nalezeno/nenalezeno) přehlíží nuance potřebné pro přesnou compliance.

April 21, 20268 min čtení
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

Limity Binární Detekce

Nejjednodušší PII detekce je binární: entita je buď detekována jako PII nebo není. „Jan Novák" → PII. „Produkt X" → ne PII.

Tento přístup selhává v kontextech compliance, kde:

Kontextová citlivost: „Jan" je jméno v dokumentu zákazníka. „Leden" (Jan v angličtině) je měsíc. Binární klasifikátor bez kontextového skóre nevím.

Regulatory prahy: HIPAA vyžaduje detekci jmen ve zdravotních záznamech s vysokou jistotou. V jiném kontextu, obecná jmenná reference může být akceptovatelná.

Trade-off falešně pozitivní/negativní: Binární detekce nemůže zohlednitvyváženost mezi false positives (nadměrná redakce, ztráta hodnoty dat) a false negatives (přehlídnutá PII, compliance selhání).

Skórování Spolehlivosti: Jak to Funguje

Moderní PII nástroje vrátí skóre spolehlivosti pro každou detekovanou entitu:

{
  "text": "Jan Novák",
  "entity_type": "PERSON",
  "confidence": 0.94,
  "start": 0,
  "end": 9
}

Skóre spolehlivosti odráží kombinaci:

  • Sílu vzoru (přesná shoda vzoru vs. přibližná shoda)
  • Kontextové signály (sousední slova naznačující kontext osoby)
  • Jazykovou specifikaci (jméno v jazyce nástrojem dobře trénovaný)

Prahová Nastavení Specifická pro Regulace

Různé regulatorní kontexty vyžadují různé prahy:

HIPAA de-identifikace Safe Harbor: Vysoká sensitivity požadavek — nastavte práh níže (detekujte s ≥0.6 spolehlivostí), přijmout více false positives, abyste minimalizovaly missed PHI.

GDPR pseudonymizace: Vyvážená sensitivity/specifity — nastavte práh na ~0.8, detekce jasné PII instance.

Záznamy zákaznického servisu pro AI zpracování: Nízký false positive tolerance — nastavte práh na ≥0.9, detekce pouze vysokou jistotou PII.

Zdroje:

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.