Проблема: Binary vs. Confidence Scoring
Большинство инструментов обнаружения PII (включая Presidio) возвращают только:
Entity type: EMAIL_ADDRESS
Value: john@example.com
Start: 0
End: 17
Что отсутствует: Оценка уверенности (confidence score).
Почему это критично?
Сценарий: E-discovery судебное разбирательство
Дело: Компания vs. Бывший сотрудник за нарушение NDA
Подопечный проверяет 50,000 документов:
- Система обнаруживает 10,000 потенциально конфиденциальных данных
- Но уверенность: 45-92%
На судебных слушаниях:
Юрист защиты: "Ваша система обнаружила 'возможные' данные с уверенностью 45%. Как вы можете утверждать, что я нарушил секретность чего-то, что ваша система не уверена, является ли это реально конфиденциальной информацией?"
Результат: Документы отклонены как доказательство. Иск проигран.
Типы ошибок обнаружения
Типичные ложные срабатывания (false positives)
| Примеры | Уверенность | Проблема |
|---|---|---|
| "He called 911 for help" | 92% | 911 ≠ номер телефона |
| "I was born on 5/15/1980" | 88% | Дата рождения ≠ PII |
| "Email me at contact@company.com" | 95% | Публичный общий ящик |
| "123 Main Street" | 85% | Адрес может быть публичным |
Типичные ложные отрицания (false negatives)
| Примеры | Уверенность | Проблема |
|---|---|---|
| "Мой паспорт: 12 AB 345678" (французский) | 0% | Не обнаружено |
| "IBAN: DE89370400440532013000" | 72% | Низкая уверенность |
| "CPF: 123.456.789-00" (бразильский) | 45% | Очень низкая уверенность |
Судебные требования по уверенности
GDPR - Статья 5: Правильность данных
Личные данные должны быть точными и актуальными; контроллер должны приложить разумные усилия для удаления или исправления неточных данных.
Судебный стандарт: "Разумные усилия" обычно интерпретируются как ≥95% уверенность.
HIPAA - Часть C: Безопасность
Охраняемая медицинская информация (PHI) должна быть защищена с адекватной уверенностью.
Судебный стандарт: 90-95% уверенность минимум.
CCPA/CPRA - Раздел 1798.100: Права потребителей
Компания должна иметь "обоснованное убеждение" в том, что данные личные.
Судебный стандарт: 85-90% уверенность.
Правильная реализация: Confidence Scoring
Структура ответа
{
"results": [
{
"entity_type": "EMAIL_ADDRESS",
"value": "john@example.com",
"start": 0,
"end": 17,
"confidence_score": 0.98,
"confidence_level": "HIGH",
"recognizer_name": "EmailRecognizer",
"support_score": 0.95
}
]
}
Интерпретация уровней
| Уверенность | Уровень | Действие |
|---|---|---|
| 0.95-1.0 | HIGH | Автоматически удалить |
| 0.85-0.95 | MEDIUM | Вручную проверить |
| 0.70-0.85 | LOW | Отметить для отзыва |
| <0.70 | VERY_LOW | Игнорировать |
Проблема Presidio: Отсутствие scoring
Presidio версия 0.5.x:
from presidio_analyzer import AnalyzerEngine
analyzer = AnalyzerEngine()
results = analyzer.analyze(
text="My email is john@example.com",
language="en"
)
# Вывод:
# EntityWithMetadata(
# entity_type='EMAIL_ADDRESS',
# start=12, end=29,
# score=0.85
# )
Проблема: score 0.85 недокументирован и не стандартизирован.
Решение: Healthcare-grade Confidence
anonym.legal использует:
- Multi-recognizer voting (несколько распознавателей голосуют)
- Контекстный анализ (окружающие слова повышают/понижают уверенность)
- Языковые модели (NER модель поддерживает уверенность)
- Историческое совпадение ("это выглядит как email, которые мы видели раньше")
Результат: 98-99.8% уверенность на критичных типах PII.
Практический пример
Судебное дело: e-discovery протокол
Сценарий: Компания производит 50,000 документов
Шаг 1: Анализ с низкой уверенностью (Presidio базовый)
Обнаружено: 15,000 потенциальных PII
Уверенность: 45-92%
Юрист: "Много ложных срабатываний, мы не можем доверять этим результатам"
Шаг 2: Анализ с высокой уверенностью (anonym.legal)
Обнаружено: 8,200 надежных PII
Уверенность: >95%
Юрист: "Мы можем доверять, что это реально конфиденциальная информация"
Аудит требования
Для GDPR соответствия вам нужно:
- ✅ Все обнаруженные PII должны иметь уверенность >95%
- ✅ Логирование уверенности для каждого обнаружения
- ✅ Документация методологии оценки
- ✅ Регулярное тестирование на ложные срабатывания
- ✅ Судебный стандарт "разумные усилия" = >95% уверенность
Вывод
Системы обнаружения PII без оценки уверенности неприемлемы для судебных разбирательств и GDPR аудитов.