anonym.legal
Назад к блогуТехнические

Бинарное обнаружение PII vs. оценка уверенности...

PII обнаружение с низкой уверенностью (50-70%) является судебной бомбой. Узнайте почему системы с уверенностью <95% не пройдут GDPR аудит и почему...

April 21, 20268 мин чтения
confidence scoringPII detectionlegal discoverycomplianceGDPR audit

Проблема: Binary vs. Confidence Scoring

Большинство инструментов обнаружения PII (включая Presidio) возвращают только:

Entity type: EMAIL_ADDRESS
Value: john@example.com
Start: 0
End: 17

Что отсутствует: Оценка уверенности (confidence score).

Почему это критично?

Сценарий: E-discovery судебное разбирательство

Дело: Компания vs. Бывший сотрудник за нарушение NDA

Подопечный проверяет 50,000 документов:

  • Система обнаруживает 10,000 потенциально конфиденциальных данных
  • Но уверенность: 45-92%

На судебных слушаниях:

Юрист защиты: "Ваша система обнаружила 'возможные' данные с уверенностью 45%. Как вы можете утверждать, что я нарушил секретность чего-то, что ваша система не уверена, является ли это реально конфиденциальной информацией?"

Результат: Документы отклонены как доказательство. Иск проигран.

Типы ошибок обнаружения

Типичные ложные срабатывания (false positives)

ПримерыУверенностьПроблема
"He called 911 for help"92%911 ≠ номер телефона
"I was born on 5/15/1980"88%Дата рождения ≠ PII
"Email me at contact@company.com"95%Публичный общий ящик
"123 Main Street"85%Адрес может быть публичным

Типичные ложные отрицания (false negatives)

ПримерыУверенностьПроблема
"Мой паспорт: 12 AB 345678" (французский)0%Не обнаружено
"IBAN: DE89370400440532013000"72%Низкая уверенность
"CPF: 123.456.789-00" (бразильский)45%Очень низкая уверенность

Судебные требования по уверенности

GDPR - Статья 5: Правильность данных

Личные данные должны быть точными и актуальными; контроллер должны приложить разумные усилия для удаления или исправления неточных данных.

Судебный стандарт: "Разумные усилия" обычно интерпретируются как ≥95% уверенность.

HIPAA - Часть C: Безопасность

Охраняемая медицинская информация (PHI) должна быть защищена с адекватной уверенностью.

Судебный стандарт: 90-95% уверенность минимум.

CCPA/CPRA - Раздел 1798.100: Права потребителей

Компания должна иметь "обоснованное убеждение" в том, что данные личные.

Судебный стандарт: 85-90% уверенность.

Правильная реализация: Confidence Scoring

Структура ответа

{
  "results": [
    {
      "entity_type": "EMAIL_ADDRESS",
      "value": "john@example.com",
      "start": 0,
      "end": 17,
      "confidence_score": 0.98,
      "confidence_level": "HIGH",
      "recognizer_name": "EmailRecognizer",
      "support_score": 0.95
    }
  ]
}

Интерпретация уровней

УверенностьУровеньДействие
0.95-1.0HIGHАвтоматически удалить
0.85-0.95MEDIUMВручную проверить
0.70-0.85LOWОтметить для отзыва
<0.70VERY_LOWИгнорировать

Проблема Presidio: Отсутствие scoring

Presidio версия 0.5.x:

from presidio_analyzer import AnalyzerEngine

analyzer = AnalyzerEngine()
results = analyzer.analyze(
    text="My email is john@example.com",
    language="en"
)

# Вывод:
# EntityWithMetadata(
#   entity_type='EMAIL_ADDRESS',
#   start=12, end=29,
#   score=0.85
# )

Проблема: score 0.85 недокументирован и не стандартизирован.

Решение: Healthcare-grade Confidence

anonym.legal использует:

  1. Multi-recognizer voting (несколько распознавателей голосуют)
  2. Контекстный анализ (окружающие слова повышают/понижают уверенность)
  3. Языковые модели (NER модель поддерживает уверенность)
  4. Историческое совпадение ("это выглядит как email, которые мы видели раньше")

Результат: 98-99.8% уверенность на критичных типах PII.

Практический пример

Судебное дело: e-discovery протокол

Сценарий: Компания производит 50,000 документов

Шаг 1: Анализ с низкой уверенностью (Presidio базовый)

Обнаружено: 15,000 потенциальных PII
Уверенность: 45-92%
Юрист: "Много ложных срабатываний, мы не можем доверять этим результатам"

Шаг 2: Анализ с высокой уверенностью (anonym.legal)

Обнаружено: 8,200 надежных PII
Уверенность: >95%
Юрист: "Мы можем доверять, что это реально конфиденциальная информация"

Аудит требования

Для GDPR соответствия вам нужно:

  • ✅ Все обнаруженные PII должны иметь уверенность >95%
  • ✅ Логирование уверенности для каждого обнаружения
  • ✅ Документация методологии оценки
  • ✅ Регулярное тестирование на ложные срабатывания
  • ✅ Судебный стандарт "разумные усилия" = >95% уверенность

Вывод

Системы обнаружения PII без оценки уверенности неприемлемы для судебных разбирательств и GDPR аудитов.

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.