Один инструмент, 45 стран: более 260 типов сущностей
Глобальные платформы обрабатывают персональные данные из многих стран одновременно. В каждой стране свои форматы идентификаторов. У каждого формата свои правила. Единый инструмент обнаружения должен справляться со всеми. Большинство инструментов — нет.
Проблема фрагментации идентификаторов
Маркетплейс с продавцами из 45 стран получает очень разные документы при регистрации. Бразильский продавец предоставляет CPF: 11 цифр, две из которых — контрольные с определённой формулой взвешивания. Индийский продавец предоставляет PAN: 10 символов с буквами и цифрами в фиксированных позициях. Немецкий продавец предоставляет Steuer-ID: 11 цифр с контрольной суммой Луна. Нидерландский продавец предоставляет BSN: 9 цифр с валидацией по модулю 11.
Каждый формат имеет свою длину и структуру. Одно регулярное выражение для одного формата не совпадёт с остальными. Широкий паттерн «10–12 цифр» даст слишком много совпадений — помечает цены, даты и справочные номера. Ложные срабатывания быстро нарастают в масштабе.
Разрыв в 40 идентификаторах
Большинство корпоративных инструментов обнаружения ПДн поставляются примерно с 40 типами идентификаторов. Среди распространённых:
- Номер социального страхования США
- Формат паспорта США
- Водительское удостоверение США
- Общие форматы кредитных карт с валидацией Луна
- Адреса электронной почты
- Телефонные номера в формате NANP
- IP-адреса
Этого достаточно для соответствия требованиям Северной Америки. Для глобальных операций — нет.
Как выглядит этот разрыв по регионам
Южная Америка: Бразильские CPF и CNPJ используют алгоритмы контрольных сумм от бразильских фискальных органов. Аргентинский CUIT использует другую формулу взвешенной суммы. Колумбийский NIT имеет собственный метод валидации. Ни один из них не совпадает с паттернами США.
Азия: Индийские PAN, Aadhaar, GSTIN и Voter ID имеют отличительные форматы. Японский My Number — 12 цифр. Южнокорейский номер регистрации резидента и китайский национальный идентификатор требуют собственных распознавателей.
Государства-члены ЕС: Полное покрытие ЕС требует форматов IBAN для всех 27 государств-членов. У каждого своя страновая длина и формат. Также требуется каждый формат национального идентификатора. Это включает немецкий Steuer-ID, французский NIR, нидерландский BSN, польский PESEL и шведский Personnummer. А также словенский EMŠO, хорватский OIB, болгарский ЕГН и румынский CNP.
Что охватывают более 260 типов сущностей
Библиотека из более 260 сущностей охватывает национальные идентификаторы всех 27 государств-членов ЕС. Валидирует все форматы IBAN ЕС. Охватывает южноамериканские идентификаторы: бразильские CPF и CNPJ, аргентинский CUIT, колумбийский NIT. Охватывает азиатские идентификаторы: индийские PAN, Aadhaar, GSTIN, японский My Number, корейский RRN. Охватывает британские идентификаторы: NI Number, NHS Number, варианты NINO. Охватывает медицинские идентификаторы: US NPI, номера DEA, форматы больничных MRN. Охватывает финансовые идентификаторы: SWIFT-коды, форматы BIC, паттерны номеров счетов.
Почему покрытие обнаружения — это вопрос соответствия
Каждая нормативная база требует, чтобы её идентификаторы были найдены и защищены. GDPR охватывает данные продавцов из ЕС. LGPD охватывает данные бразильских продавцов. Индийский закон DPDP охватывает данные индийских продавцов.
«Надлежащая защита» означает, что инструмент нашёл идентификатор. Пропущенный Aadhaar — это не сбой конфигурации. Это пробел в покрытии. Для глобальных платформ этот разрыв — разница между частичным и реальным соответствием.
Одно развёртывание с покрытием более 260 сущностей обрабатывает все эти юрисдикции. Никаких отдельных региональных инструментов. Никаких отдельных конвейеров обработки. Никакого ручного обогащения для форматов, которые пропускает инструмент с 40 распознавателями.
Подробнее о том, как покрытие соотносится с обязательствами по GDPR, см. в ресурсах по соответствию GDPR. Политики журнала аудита и обновлений — в разделе безопасности и соответствия.