Национальный орган по надзору за обработкой персональных данных Румынии (ANSPDCP) опубликовал техническую оценку 2024 года с показательным выводом: 78% инструментов PII, развёрнутых в румынских аутсорсинговых операциях, не обнаруживают Cod Numeric Personal (CNP) с надлежащей проверкой контрольной суммы. Для страны, обрабатывающей данные граждан ЕС в больших масштабах для западноевропейских клиентов, это создаёт системные риски несоответствия.
CNP: наиболее информационно насыщенный персональный идентификатор Румынии
CNP — 13-значный национальный идентификационный номер:
- Цифра 1: код пола и века (1=мужской 1900–1999, 2=женский 1900–1999, 5=мужской 2000+, 6=женский 2000+, 7=мужской иностранный резидент, 8=женский иностранный резидент, 9=прочий резидент)
- Цифры 2–3: последние две цифры года рождения
- Цифры 4–5: месяц рождения (01–12)
- Цифры 6–7: день рождения (01–31)
- Цифры 8–9: код жудеца (01–52, соответствующий 41 жудецу Румынии + секторам Бухареста)
- Цифры 10–12: порядковый номер рождения в день и жудеце
- Цифра 13: контрольная цифра (взвешенная сумма по модулю 11)
CNP кодирует пол, полную дату рождения, жудец рождения и гражданский статус — делая его одним из наиболее информационно насыщенных национальных идентификаторов в Европе. Кодирование пола в цифре 1 делает CNP фактическим индикатором специальной категории по статье 9 GDPR (раскрывающим биологический пол), требующим повышенной защиты.
Проверка контрольной суммы: Алгоритм контрольной цифры умножает первые 12 цифр на веса (2,7,9,1,4,6,3,5,8,2,7,9), суммирует произведения, берёт результат по модулю 11. Если результат равен 10, контрольная цифра = 1. Если результат равен 11, CNP недействителен. В противном случае контрольная цифра равна результату.
78% инструментов пропускают эту валидацию — порождая как ложные срабатывания (любое 13-значное число помечается), так и ложные отрицания (повреждённые номера CNP проходят поиск по шаблону, но не проходят проверку контрольной суммы и поэтому пропускаются как потенциально недействительные данные, требующие проверки).
Румынский NER: недостающий уровень
Помимо CNP, обработка румынского языка создаёт специфические проблемы для NER:
Диакритические знаки румынского языка: Румынский использует символы ș (s-седиль), ț (t-седиль), ă, â и î. Инструменты, обученные на нерумынском тексте, могут не распознавать румынские имена, содержащие эти символы. Проблемы кодировки (UTF-8 против Latin-2) в устаревших румынских документах создают дополнительные трудности при обнаружении.
Форматы румынских адресов: «Strada» (сокращённо «Str.»), «Bulevardul» (сокращённо «Bd.»), «Aleea» (сокращённо «Al.»), «Calea» (сокращённо «Cal.») для обозначения типов улиц. Румынские населённые пункты включают как города (municipii), так и коммуны (comune) с именными конвенциями, отличными от форматов западноевропейских адресов.
Шаблоны румынских имён: Румынские имена следуют специфическим патронимическим и грамматическим конвенциям. Одно и то же имя встречается в разных грамматических падежах в зависимости от грамматической роли в предложении (именительный, родительный-дательный). Модели NER должны учитывать падежные вариации для корректного распознавания румынских имён в различных контекстах документов.
Структура правоприменения ANSPDCP
Дела правоприменения ANSPDCP следуют последовательной схеме, выявляющей конкретные технические сбои, ведущие к нарушениям:
Дела об утечках данных в BPO: Колл-центр или организация IT-поддержки страдает от утечки данных. Расследование обнаруживает, что общие файлы, содержащие румынские номера CNP сотрудников и персональные данные клиентов ЕС, хранились без надлежащего шифрования. Оценку масштаба утечки затрудняет неадекватное ведение журналов — организация не может определить, к каким именно записям был получен доступ.
Раскрытие медицинских данных: Записи о пациентах, содержащие номера CNP, номера медицинских карт и сведения о диагнозах, непреднамеренно передаются неавторизованным сторонам (отправляются по электронной почте не тому получателю, публикуются в неверной облачной папке). Номера CNP не были обнаружены или псевдонимизированы перед отправкой, поскольку инструмент PII организации не включал поддержку румынских идентификаторов.
Трансграничная передача без гарантий: Румынская BPO-организация передаёт данные клиентов ЕС (включая записи, привязанные к CNP) индийскому субобработчику для ввода или обработки данных без надлежащей оценки воздействия передачи и стандартных договорных положений. Номера CNP в передаваемых файлах создают риск передачи специальной категории данных GDPR.
Для соответствия GDPR в Румынии: обнаружение CNP с проверкой контрольной суммы по modulo-11, обработка румынского языка с учётом диакритических знаков и обнаружение румынских национальных удостоверений личности — технический минимум, подтверждённый практикой правоприменения ANSPDCP.
Источники: