anonym.legal
Назад к блогуGDPR и соблюдение

Почему ваш инструмент обнаружения PII соответствует...

Немецкий Steuer-ID (11 цифр с контрольной суммой) структурно отличается от американского SSN. Французские номера NIR имеют 15 цифр.

March 20, 20268 мин чтения
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

GDPR не имеет языковых предпочтений

Общее положение о защите данных применяется одинаково к личным данным на немецком, французском, польском, шведском, испанском, итальянском и всех других языках, обрабатываемым организациями, подпадающими под действие Регламента. Пропущенный идентификатор в немецких данных клиентов создает такой же регуляторный риск, как и пропущенный идентификатор в английских данных клиентов. GDPR не различает языки.

Большинство инструментов обнаружения PII делают это.

Доминирующие коммерческие и открытые инструменты обнаружения PII были созданы и протестированы в первую очередь на английском тексте. Их распознаватели сущностей отражают это: номера социального обеспечения США, водительские удостоверения США, форматы паспортов США и общие универсальные идентификаторы (адреса электронной почты, номера телефонов в формате NANP, номера кредитных карт). Распознаватели для национальных идентификаторов на других языках — когда они существуют — часто менее точны, менее поддерживаемы и более склонны к ложным отрицательным результатам.

Для предприятий, работающих в странах-членах ЕС, это создает систематический пробел в соблюдении требований: инструмент сообщает, что PII была обнаружена и удалена, но неанглийские идентификаторы, представляющие наибольший риск для GDPR в определенных юрисдикциях, остаются в данных.

Структурная разница между национальными идентификаторами

Разрыв между инструментами, ориентированными на английский язык, и действительно многоязычными инструментами не является вопросом добавления большего количества регулярных выражений. Форматы национальных идентификаторов в странах-членах ЕС структурно различаются таким образом, что для их правильного обнаружения требуется знание, специфичное для юрисдикции.

Немецкий Steuer-Identifikationsnummer (Steuer-ID): 11-значный налоговый идентификатор с конкретным алгоритмом контрольной суммы, основанным на варианте формулы Луна. Общее регулярное выражение для SSN не будет соответствовать этому формату. Регулярное выражение, которое соответствует любому 11-значному числу, приведет к огромным показателям ложных срабатываний в немецких финансовых документах.

Французский NIR (Numéro d'inscription au répertoire): 15-значный идентификатор, включающий пол владельца, год рождения, месяц рождения, код департамента или страны рождения, номер порядкового рождения и 2-значный контрольный ключ. Обнаружение требует понимания структуры и валидации контрольного ключа.

Шведский Personnummer: 10-значный идентификатор (иногда с указателем века, что делает его 12-значным) с контрольной цифрой Луна. Формат варьируется в зависимости от возраста: лица, родившиеся до 1990 года, используют + в качестве разделителя вместо -, что изменяет формат, который необходимо обнаружить.

Польский PESEL: 11-значный идентификатор, кодирующий дату рождения, пол и контрольную цифру, основанную на алгоритме взвешенной суммы. Правильное обнаружение требует как соответствия формату, так и валидации контрольной суммы.

Это не вариации формата на общем шаблоне. Это структурно различные идентификаторы с разной длиной, разными алгоритмами валидации и различными схемами позиционного кодирования. Модель NER, обученная на английском, сталкивающаяся с французским NIR в тексте, не распознает его как национальный идентификатор — она либо проигнорирует его, либо, если он соответствует какому-то другому шаблону, неправильно классифицирует его.

Практическое последствие соблюдения требований

Для сотрудника по соблюдению требований в европейском BPO, обрабатывающего данные обслуживания клиентов из Германии, Франции, Польши и Нидерландов одновременно, практическое последствие — это систематический пробел в обнаружении неанглийских записей клиентов.

Инструмент сотрудника по соблюдению требований сообщает о успешной анонимизации PII. Анонимизированные данные все еще содержат Steuer-IDs в немецких записях, номера NIR во французских записях и номера PESEL в польских записях — потому что распознаватели этих форматов либо отсутствуют, либо недостаточно точны.

Когда анонимизированный набор данных позже используется для аналитики, тестирования или делится с исследовательским партнером, "анонимизированные" данные все еще содержат данные национальных идентификаторов, которые можно повторно идентифицировать. Нарушение GDPR не видно в выходных журналах инструмента. Оно становится видимым, когда запрос на доступ к данным субъектов, аудит надзорного органа или утечка данных показывает, что неанглийские идентификаторы не были удалены.

Исследования, сравнивающие гибридные многоязычные подходы к обнаружению PII с монолингвальными инструментами, ориентированными на английский, показали, что гибридные подходы достигают F1-оценок от 0.60 до 0.83 в различных европейских регионах — по сравнению с почти нулевой производительностью инструментов, ориентированных только на английский, применяемых к форматам неанглийских идентификаторов.

Что требуется для комплексного охвата

Истинное многоязычное обнаружение PII для соблюдения требований GDPR ЕС требует трех архитектурных уровней, работающих в комбинации:

Языковые модели spaCy обеспечивают семантическое понимание имен, организаций и мест в языке текста. Модель spaCy, обученная на немецком тексте, понимает, что "Müller" — это распространенная фамилия в немецком контексте — а не просто заглавное слово. Модели существуют для 25 языков ЕС с высоким ресурсом.

Модели Stanza NLP расширяют охват на дополнительные языки, не охваченные spaCy на том же уровне точности.

Модели трансформеров кросс-языка (XLM-RoBERTa) обрабатывают кросс-языковую неоднозначность, которую чистое сопоставление шаблонов не может решить — распознавая, что имя, появляющееся в французском предложении, является именем человека, даже если движок обнаружения не был специально обучен на этом имени.

Регулярные выражения с валидацией, специфичной для юрисдикции, охватывают структурированные национальные идентификаторы — Steuer-ID, NIR, PESEL, Personnummer — с валидацией контрольной суммы, которая исключает ложные срабатывания.

Для сотрудника по соблюдению требований, чей инструмент в настоящее время пропускает неанглийские идентификаторы: разрыв является структурным, а не конфигурационным. Добавление списков слов или расширение охвата регулярных выражений дает незначительное улучшение. Комплексное соблюдение требований GDPR ЕС для многоязычных данных требует инструмента, построенного с учетом охвата идентификаторов ЕС как требования дизайна, а не как второстепенной задачи.

Источники:

Готовы защитить ваши данные?

Начните анонимизацию PII с 285+ типов сущностей на 48 языках.