Почему европейские идентификаторы структурно отличаются от американских
Американские инструменты защиты данных ориентированы на идентификаторы США: номера социального страхования (AAA-BB-CCCC), телефоны формата XXX-XXX-XXXX, водительские удостоверения по штатам, почтовые индексы. Европейские форматы не являются вариациями американских — они принципиально иные, закреплены в национальном законодательстве и не имеют американских аналогов.
Возьмём немецкий Steuer-ID. Это 11-значное число с уникальным алгоритмом контрольной суммы: первая цифра не может быть нулём, ни одна цифра не может повторяться подряд более трёх раз, а финальная контрольная цифра вычисляется по математической формуле. Алгоритм опубликован Федеральным центральным налоговым ведомством (Bundeszentralamt für Steuern). Регулярное выражение для SSN не распознает Steuer-ID, а алгоритм валидации SSN для него не подойдёт.
Французский NIR (Numéro de Sécurité Sociale) содержит 15 цифр с семантически значимой структурой: позиция 1 — пол (1 = мужской, 2 = женский), позиции 2–3 — последние две цифры года рождения, позиции 4–5 — месяц рождения, позиции 6–7 — департамент рождения, позиции 8–10 — коммуна, позиции 11–13 — порядковый номер в коммуне, позиции 14–15 — контрольный ключ, производный от деления 13-значного числа на 97. Ни один инструмент, работающий с американскими форматами, не обнаружит NIR — для этого требуется специализированная реализация.
Общеевропейский разрыв соответствия
По данным отчёта IBM «Cost of a Data Breach 2025», средний ущерб от утечки медицинских данных составляет $10,22 млн — максимум среди всех отраслей. Столь высокие потери объясняются как объёмом конфиденциальных данных, так и сложностью требований соответствия. В 50% случаев медицинских утечек фигурирует неадекватное обезличивание общедоступных исследовательских данных: некачественное обнаружение европейских идентификаторов в сочетании с открытыми датасетами создаёт системный риск.
Поставщик HR-программного обеспечения, работающий с документами об устройстве на работу из 18 стран ЕС с помощью американского инструмента, не распознаёт национальные идентификаторы 14 из 18 стран. Пробел носит системный характер: каждый документ, прошедший через такой инструмент и содержащий Steuer-ID, NIR, Personnummer, Fodselsnummer или другой европейский идентификатор, оставляет эти данные открытыми.
Требования к полному покрытию ЕС
Минимальное покрытие для соответствия GDPR включает:
DACH (Германия, Австрия, Швейцария): немецкий Steuer-ID и Reisepass; австрийский Sozialversicherungsnummer; швейцарский AHV-Nr (13 цифр с контрольной цифрой)
Франция: NIR (15-значный номер социального страхования), Carte Vitale, SIRET (14 цифр), SIREN (9 цифр)
Великобритания (post-Brexit, аналог GDPR): номер NHS (10 цифр), National Insurance number (формат AA-NN-NN-NN-A), UTR (10 цифр)
Скандинавия: шведский Personnummer (YYMMDD-XXXX), норвежский Fodselsnummer (11 цифр), финский Henkilotunnus (DDMMYY-XXXX), датский CPR (DDMMYY-XXXX)
Южная Европа: испанский DNI/NIE, итальянский Codice Fiscale (16-символьный буквенно-цифровой), польский PESEL (11 цифр), чешский Rodne Cislo
Организации, переходящие с американских инструментов на решения с полным европейским покрытием, как правило, обнаруживают, что предыдущее обезличивание охватывало лишь 30–40% европейских национальных идентификаторов — большинство из них оставались в «обезличенных» датасетах в открытом виде.
Источники: