Проблема фрагментации глобальных идентификаторов
Платформа рынка с продавцами в 45 странах обрабатывает документы для регистрации, которые выглядят совершенно по-разному в зависимости от страны происхождения продавца. Бразильский продавец предоставляет CPF (Cadastro de Pessoas Físicas) — 11-значный налоговый идентификатор с двумя контрольными цифрами, рассчитанными с использованием специфического алгоритма взвешивания. Индийский продавец предоставляет PAN (Permanent Account Number) — 10-символьный алфавитно-цифровой формат, объединяющий буквы и цифры в определенном позиционном шаблоне. Немецкий продавец предоставляет Steuer-ID (11-значный с контрольной суммой Луна). Голландский продавец предоставляет BSN (Burger Service Nummer, 9 цифр с проверкой по модулю 11).
Каждый формат имеет различную длину, структуру и алгоритм проверки. Один regex, предназначенный для одного формата, не соответствует другим. Общий шаблон "10-12 значная числовая строка" приводит к неприемлемым уровням ложных срабатываний в финансовых документах, содержащих цены, количества, даты и номера ссылок.
Обязанность по соблюдению требований не различает страны. GDPR охватывает данные продавцов из ЕС. LGPD охватывает данные бразильского продавца. DPDP Act охватывает данные индийского продавца. Каждая нормативная база требует соответствующей защиты персональных данных, охватываемых этой базой — и "соответствующая" означает, что идентификатор был обнаружен и защищен, а не просто то, что была предпринята попытка обнаружения.
Пробел в 40 идентификаторах
Большинство инструментов обнаружения PII для предприятий поставляются с распознавателями примерно 40 общих типов идентификаторов. Обычно они включают:
- Номер социального обеспечения США
- Формат паспорта США
- Водительские права США (в зависимости от штата)
- Общие форматы кредитных карт (проверка по Луну)
- Адреса электронной почты
- Номера телефонов (формат NANP)
- IP-адреса
Инструменты на этом уровне покрытия удовлетворяют требованиям соблюдения норм для англоязычных стран Северной Америки довольно хорошо. Они не охватывают ландшафт идентификаторов организаций, работающих на глобальном уровне.
Разрыв между 40 идентификаторами и глобальным соответствием значителен:
Идентификаторы Южной Америки: Бразильский CPF (индивидуальный) и CNPJ (корпоративный) требуют проверки контрольной суммы, специфичной для формата налогового органа Бразилии. Аргентинский CUIT следует другому алгоритму взвешенной суммы. Колумбийский NIT использует еще один метод проверки.
Идентификаторы Азии: Индийский PAN, Aadhaar (12-значный биометрический ID), индийский GSTIN (идентификация GST) и удостоверение личности избирателя имеют различные форматы. Японский My Number (12-значный национальный ID), корейский номер регистрации резидента и китайский национальный ID (18 символов с контрольной цифрой) требуют отдельных распознавателей.
Идентификаторы ЕС: Кроме общепризнанных форматов, комплексное покрытие ЕС требует форматов IBAN для всех 27 государств-членов ЕС (каждый с уникальной длиной и форматом), а также форматов национальных ID для каждого государства-члена (немецкий Steuer-ID, французский NIR, голландский BSN, польский PESEL, шведский Personnummer и другие).
Что на самом деле охватывает 260+ типов сущностей
Комплексная библиотека сущностей с 260+ типами охватывает:
- Все национальные идентификаторы 27 государств-членов ЕС (включая менее охваченные: словенский EMŠO, хорватский OIB, болгарский EGN, румынский CNP)
- Все форматы IBAN ЕС (27 форматов, специфичных для стран, с проверкой)
- Основные идентификаторы Южной Америки (Бразилия CPF/CNPJ, Аргентина CUIT, Колумбия NIT)
- Основные идентификаторы Азии (Индия PAN/Aadhaar/GSTIN, Япония My Number, Корея RRN)
- Идентификаторы, специфичные для Великобритании после Brexit (номер NI Великобритании, номер NHS, варианты NINO)
- Медицинские идентификаторы в разных юрисдикциях (номер NPI США, номера DEA, номера NHS, форматы MRN больниц)
- Финансовые идентификаторы (SWIFT-коды, форматы BIC, различные шаблоны номеров счетов)
Для лондонской платформы, обслуживающей продавцов из 45 стран, покрытие 260+ сущностей означает, что одно развертывание обрабатывает идентификацию и защиту персональных данных продавца во всех юрисдикциях — без необходимости в отдельных региональных инструментах, отдельных процессинговых каналах или ручном обогащении для тех типов национальных идентификаторов, которые пропускает инструмент с 40 распознавателями.
Позиция по соблюдению норм меняется с "мы защищаем общие идентификаторы" на "мы защищаем идентификаторы, присутствующие в наших фактических данных." Для глобальных операций это различие является разницей между частичным соблюдением и подлинной защитой.
Источники: