Limity Binární Detekce
Nejjednodušší PII detekce je binární: entita je buď detekována jako PII nebo není. „Jan Novák" → PII. „Produkt X" → ne PII.
Tento přístup selhává v kontextech compliance, kde:
Kontextová citlivost: „Jan" je jméno v dokumentu zákazníka. „Leden" (Jan v angličtině) je měsíc. Binární klasifikátor bez kontextového skóre nevím.
Regulatory prahy: HIPAA vyžaduje detekci jmen ve zdravotních záznamech s vysokou jistotou. V jiném kontextu, obecná jmenná reference může být akceptovatelná.
Trade-off falešně pozitivní/negativní: Binární detekce nemůže zohlednitvyváženost mezi false positives (nadměrná redakce, ztráta hodnoty dat) a false negatives (přehlídnutá PII, compliance selhání).
Skórování Spolehlivosti: Jak to Funguje
Moderní PII nástroje vrátí skóre spolehlivosti pro každou detekovanou entitu:
{
"text": "Jan Novák",
"entity_type": "PERSON",
"confidence": 0.94,
"start": 0,
"end": 9
}
Skóre spolehlivosti odráží kombinaci:
- Sílu vzoru (přesná shoda vzoru vs. přibližná shoda)
- Kontextové signály (sousední slova naznačující kontext osoby)
- Jazykovou specifikaci (jméno v jazyce nástrojem dobře trénovaný)
Prahová Nastavení Specifická pro Regulace
Různé regulatorní kontexty vyžadují různé prahy:
HIPAA de-identifikace Safe Harbor: Vysoká sensitivity požadavek — nastavte práh níže (detekujte s ≥0.6 spolehlivostí), přijmout více false positives, abyste minimalizovaly missed PHI.
GDPR pseudonymizace: Vyvážená sensitivity/specifity — nastavte práh na ~0.8, detekce jasné PII instance.
Záznamy zákaznického servisu pro AI zpracování: Nízký false positive tolerance — nastavte práh na ≥0.9, detekce pouze vysokou jistotou PII.
Zdroje: