Проблема инструментов PII, ориентированных на США
Большинство инструментов для обнаружения PII были разработаны в Соединенных Штатах для форматов данных США. Номер социального страхования — 9 цифр в формате AAA-BB-CCCC, с документированными номерами районов, номерами групп и серийными номерами — был основной целью проектирования. Инструменты, разработанные для обнаружения SSN, надежно обнаруживают SSN. Они также могут обнаруживать номера телефонов, адреса электронной почты и форматы водительских удостоверений США. Они систематически пропускают форматы идентификаторов, используемые в каждой другой стране.
GDPR не признает ориентацию на США как исключение из соблюдения требований. Немецкий Steuer-ID (Steuerliche Identifikationsnummer) — это 11-значный налоговый идентификационный номер, выданный Bundeszentralamt für Steuern, с конкретным алгоритмом контрольной суммы, проверяемым по контрольной цифре. Он идентифицирует немецких жителей так же лично, как SSN идентифицирует американцев. Статья 4 GDPR определяет персональные данные как "любую информацию, относящуюся к идентифицированному или поддающемуся идентификации физическому лицу" — Steuer-ID является персональными данными в соответствии с GDPR, независимо от того, знает ли ваш инструмент PII формат.
Штрафы по GDPR были наложены за раскрытие PII, специфичных для стран ЕС, в системах данных, которые обрабатывали данные жителей ЕС, используя инструменты, настроенные только на форматы США. Пробел в соблюдении требований не является теоретическим — он привел к действиям по принуждению.
Ландшафт идентификаторов в Европе
Масштаб пробела в охвате идентификаторов в Европе:
Германия: Steuer-ID (11-значный, контрольная сумма), Sozialversicherungsnummer (12-значный, структурный формат), Reisepass (10-значный паспорт с конкретными кодами выдавшего органа)
Франция: NIR/Numero de Securite Sociale (15 цифр, кодирующих пол [1], год рождения [2], месяц рождения [2], департамент [2], коммуну [3], регистрационный номер [3], контрольный ключ [2]), Carte Vitale (карта 15-значного NIR), SIRET (14-значный бизнес-идентификатор), SIREN (9-значный)
Швеция: Personnummer (10-значный, формат YYMMDD-XXXX, где последние две цифры идентифицируют округ рождения в старых номерах), Samordningsnummer (координационный номер для нерезидентов, аналогичный формат с днем + 60)
Норвегия: Fodselsnummer (11-значный, формат DDMMYYNNNKK с полом в средних цифрах), D-nummer (координационный номер, день + 40)
Бразилия: CPF (Cadastro de Pessoas Fisicas, 11-значный с двумя контрольными цифрами), CNPJ (14-значный бизнес-идентификатор)
Индия: Aadhaar (12-значный биометрический идентификатор с контрольной цифрой по алгоритму Верефа), PAN (10-символьный алфавитно-цифровой для налога на доход)
ОАЭ: Emirates ID (15-значный: 784-год рождения-последовательность-контроль)
Глобальному менеджеру по персоналу, обрабатывающему данные о зарплате сотрудников в 12 странах, нужен инструмент, который обнаруживает все 12 форматов национальных удостоверений личности в одном проходе — без настройки 12 отдельных инструментов, специфичных для стран, или поддержания 12 отдельных библиотек regex.
Архитектура типов сущностей 285+
Библиотека типов сущностей 285+ охватывает полный набор идентификаторов государств-членов ЕС, основные идентификаторы APAC (Aadhaar, PAN, CPF, CNPJ, Emirates ID, удостоверение личности гражданина Таиланда) и идентификаторы США (SSN, EIN, водительское удостоверение по штатам) в одном движке обнаружения. Библиотека поддерживается и обновляется по мере изменения форматов, специфичных для стран.
Источники: