Проблема охвата
Presidio и его основной модуль spaCy поддерживают ограниченное количество типов сущностей в европейских языках.
Критические пробелы в охвате
1. Национальные идентификационные номера
Требует GDPR: Да (частные данные)
| Страна | Требуемое поле | Presidio охватывает? |
|---|---|---|
| Франция | NIR (Numero d'Inscription au Repertoire) | ❌ Нет |
| Испания | DNI/NIE | ⚠️ Ограничено |
| Италия | Codice Fiscale | ❌ Нет |
| Германия | Steuernummer | ❌ Нет |
| Польша | PESEL | ❌ Нет |
2. Финансовые идентификаторы
- IBAN: ⚠️ Базовое совпадение паттерна (не валидация)
- BIC: ❌ Нет
- Счета в банках: ❌ Нет
3. Медицинские данные
- Диагнозы: ❌ Нет
- Коды лекарств: ❌ Нет
- Номера истории болезни: ❌ Нет
4. Сетевые данные
- MAC-адреса: ❌ Нет
- IPv6-адреса: ⚠️ Частично
- User-Agent строки: ❌ Нет
Почему это критично для GDPR
GDPR требует защиты всех персональных данных. Если ваша система обнаруживает только 30% PII, вы технически нарушаете GDPR.
Регуляторы в Европе (BfDI, CNIL, ICO) ожидают, что вы защитите ВСЕ персональные данные, включая национальные идентификаторы.
Решение
Используйте специализированный инструмент GDPR, который:
- Охватывает все типы PII в вашей юрисдикции
- Обновляется в соответствии с локальными требованиями
- Имеет встроенную поддержку национальных форматов
anonym.legal охватывает 285+ типов сущностей включая все требуемые GDPR типы PII для EU.