GDPR не имеет языковых предпочтений
GDPR защищает персональные данные на любом языке. Немецкий, французский, польский, шведский — все охвачены в равной мере. Пропущенный Steuer-ID создаёт такой же юридический риск, как пропущенный SSN. Закон не делает различий по языку.
Большинство инструментов обнаружения PII делают.
Ведущие коммерческие и open-source инструменты создавались для английского текста. Детекторы для не-английских национальных идентификаторов менее точны, хуже поддерживаются и чаще пропускают реальные идентификаторы.
Для компаний в государствах — членах ЕС это создаёт пробел в покрытии. Инструмент сообщает о завершении обнаружения. Но не-английские идентификаторы остаются в данных. Надзорные органы видят это. Аудиторы проверяют специально.
Национальные идентификаторы различаются по структуре
Разрыв между англоцентричными и многоязычными инструментами — не просто вопрос добавления regex-шаблонов. EU-идентификаторы принципиально различаются и требуют страно-специфической логики.
Немецкий Steuer-ID: 11 цифр с контрольной суммой по варианту алгоритма Луна. Универсальный SSN-regex его не обнаружит.
Французский NIR: 15 цифр, кодируют пол, год рождения, месяц, департамент и контрольный ключ. Необходима валидация контрольного ключа.
Шведский Personnummer: 10 цифр с контрольной цифрой Луна. Люди, рождённые до 1990 года, используют + вместо -.
Польский PESEL: 11 цифр, кодируют дату рождения, пол и контрольную цифру по взвешенным суммам.
Это не редкие идентификаторы. Любой работодатель, поставщик медицинских услуг или финансовая организация в ЕС регулярно с ними сталкивается.
Как anonym.legal закрывает пробел
anonym.legal поддерживает специализированные детекторы для 45+ стран с:
- Валидацией контрольной суммы: математическая проверка, а не просто сопоставление шаблонов
- Контекстным усилением: окружающие слова влияют на уверенность
- Страно-специфическими правилами: пороги настроены для каждого типа идентификатора
Европа: Steuer-ID (DE), NIR (FR), Personnummer (SE), PESEL (PL), BSN (NL), CNP (RO), OIB (HR) и другие.
Азия-Тихоокеанский регион: Aadhaar/PAN (IN), My Number (JP), RRN (KR), NRIC (SG), NIK (ID).
Ближний Восток: Emirates ID (AE), National ID (SA, EG).
Полный список — на странице /entities.
Влияние на правоприменение
Статья 32 GDPR требует «надлежащих технических мер». Инструмент, не обнаруживающий идентификаторы в ваших записях, не соответствует этому требованию. Добросовестность намерений этого не меняет.
Подробнее — в нашем руководстве по правовому соответствию и на странице /entities.