anonym.legal
Назад до блогуТехнічні

Оцінка впевненості PII: чому бінарне виявлення...

GDPR вимагає технічних заходів, «пропорційних ризику». Бінарне виявлення PII ігнорує довірчі оцінки — обробляючи 0.51 та 0.99 ідентично.

April 21, 20268 хв читання
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

Оцінка впевненості PII: чому бінарне виявлення недостатньо

Проблема порогового значення

Стандартні конвеєри виявлення PII встановлюють одне порогове значення: якщо оцінка довіри > 0.5 → це PII, маскувати. Якщо < 0.5 → не PII, залишити.

Проблема: цей бінарний підхід обробляє оцінку впевненості 0.51 так само, як 0.99. Для GDPR-відповідності різниця між «цей рядок майже напевно є PII» (0.99) та «цей рядок може бути PII» (0.51) є суттєвою.

Три рівні впевненості для відповідності

Рівень 1: Висока впевненість (0.90+)

  • Автоматично маскувати без людського огляду
  • «sarah.johnson@gmail.com» → EMAIL_ADDRESS (0.99)
  • «123-45-6789» у «SSN:» контексті → US_SSN (0.95)

Рівень 2: Середня впевненість (0.60–0.89)

  • Маскувати та позначати для огляду
  • «Johnson» у загальному контексті → PERSON (0.72) — можливо прізвище, можливо назва компанії
  • «1234567890» поряд з «телефон» → PHONE_NUMBER (0.68)

Рівень 3: Низька впевненість (нижче 0.60)

  • Не маскувати автоматично; позначити для людського огляду
  • Незвичайний рядок, що може бути PII у специфічному контексті

GDPR «пропорційно ризику» — аргумент оцінки довіри

Стаття 32 GDPR вимагає технічних заходів «пропорційних ризику». Диференційований підхід:

  • Ризик ≤ 0.60: Неясно, чи є PII → людський огляд (пропорційно)
  • Ризик 0.60–0.89: Можливо PII → автоматично маскувати + аудит (пропорційно)
  • Ризик ≥ 0.90: Майже напевно PII → автоматично маскувати (пропорційно)

Джерела:

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.