Оцінка впевненості PII: чому бінарне виявлення недостатньо
Проблема порогового значення
Стандартні конвеєри виявлення PII встановлюють одне порогове значення: якщо оцінка довіри > 0.5 → це PII, маскувати. Якщо < 0.5 → не PII, залишити.
Проблема: цей бінарний підхід обробляє оцінку впевненості 0.51 так само, як 0.99. Для GDPR-відповідності різниця між «цей рядок майже напевно є PII» (0.99) та «цей рядок може бути PII» (0.51) є суттєвою.
Три рівні впевненості для відповідності
Рівень 1: Висока впевненість (0.90+)
- Автоматично маскувати без людського огляду
- «sarah.johnson@gmail.com» → EMAIL_ADDRESS (0.99)
- «123-45-6789» у «SSN:» контексті → US_SSN (0.95)
Рівень 2: Середня впевненість (0.60–0.89)
- Маскувати та позначати для огляду
- «Johnson» у загальному контексті → PERSON (0.72) — можливо прізвище, можливо назва компанії
- «1234567890» поряд з «телефон» → PHONE_NUMBER (0.68)
Рівень 3: Низька впевненість (нижче 0.60)
- Не маскувати автоматично; позначити для людського огляду
- Незвичайний рядок, що може бути PII у специфічному контексті
GDPR «пропорційно ризику» — аргумент оцінки довіри
Стаття 32 GDPR вимагає технічних заходів «пропорційних ризику». Диференційований підхід:
- Ризик ≤ 0.60: Неясно, чи є PII → людський огляд (пропорційно)
- Ризик 0.60–0.89: Можливо PII → автоматично маскувати + аудит (пропорційно)
- Ризик ≥ 0.90: Майже напевно PII → автоматично маскувати (пропорційно)
Джерела: