GDPR не имеет языковых предпочтений
Общее положение о защите данных применяется одинаково к личным данным на немецком, французском, польском, шведском, испанском, итальянском и всех других языках, обрабатываемым организациями, подпадающими под действие Регламента. Пропущенный идентификатор в немецких данных клиентов создает такой же регуляторный риск, как и пропущенный идентификатор в английских данных клиентов. GDPR не различает языки.
Большинство инструментов обнаружения PII делают это.
Доминирующие коммерческие и открытые инструменты обнаружения PII были созданы и протестированы в первую очередь на английском тексте. Их распознаватели сущностей отражают это: номера социального обеспечения США, водительские удостоверения США, форматы паспортов США и общие универсальные идентификаторы (адреса электронной почты, номера телефонов в формате NANP, номера кредитных карт). Распознаватели для национальных идентификаторов на других языках — когда они существуют — часто менее точны, менее поддерживаемы и более склонны к ложным отрицательным результатам.
Для предприятий, работающих в странах-членах ЕС, это создает систематический пробел в соблюдении требований: инструмент сообщает, что PII была обнаружена и удалена, но неанглийские идентификаторы, представляющие наибольший риск для GDPR в определенных юрисдикциях, остаются в данных.
Структурная разница между национальными идентификаторами
Разрыв между инструментами, ориентированными на английский язык, и действительно многоязычными инструментами не является вопросом добавления большего количества регулярных выражений. Форматы национальных идентификаторов в странах-членах ЕС структурно различаются таким образом, что для их правильного обнаружения требуется знание, специфичное для юрисдикции.
Немецкий Steuer-Identifikationsnummer (Steuer-ID): 11-значный налоговый идентификатор с конкретным алгоритмом контрольной суммы, основанным на варианте формулы Луна. Общее регулярное выражение для SSN не будет соответствовать этому формату. Регулярное выражение, которое соответствует любому 11-значному числу, приведет к огромным показателям ложных срабатываний в немецких финансовых документах.
Французский NIR (Numéro d'inscription au répertoire): 15-значный идентификатор, включающий пол владельца, год рождения, месяц рождения, код департамента или страны рождения, номер порядкового рождения и 2-значный контрольный ключ. Обнаружение требует понимания структуры и валидации контрольного ключа.
Шведский Personnummer: 10-значный идентификатор (иногда с указателем века, что делает его 12-значным) с контрольной цифрой Луна. Формат варьируется в зависимости от возраста: лица, родившиеся до 1990 года, используют + в качестве разделителя вместо -, что изменяет формат, который необходимо обнаружить.
Польский PESEL: 11-значный идентификатор, кодирующий дату рождения, пол и контрольную цифру, основанную на алгоритме взвешенной суммы. Правильное обнаружение требует как соответствия формату, так и валидации контрольной суммы.
Это не вариации формата на общем шаблоне. Это структурно различные идентификаторы с разной длиной, разными алгоритмами валидации и различными схемами позиционного кодирования. Модель NER, обученная на английском, сталкивающаяся с французским NIR в тексте, не распознает его как национальный идентификатор — она либо проигнорирует его, либо, если он соответствует какому-то другому шаблону, неправильно классифицирует его.
Практическое последствие соблюдения требований
Для сотрудника по соблюдению требований в европейском BPO, обрабатывающего данные обслуживания клиентов из Германии, Франции, Польши и Нидерландов одновременно, практическое последствие — это систематический пробел в обнаружении неанглийских записей клиентов.
Инструмент сотрудника по соблюдению требований сообщает о успешной анонимизации PII. Анонимизированные данные все еще содержат Steuer-IDs в немецких записях, номера NIR во французских записях и номера PESEL в польских записях — потому что распознаватели этих форматов либо отсутствуют, либо недостаточно точны.
Когда анонимизированный набор данных позже используется для аналитики, тестирования или делится с исследовательским партнером, "анонимизированные" данные все еще содержат данные национальных идентификаторов, которые можно повторно идентифицировать. Нарушение GDPR не видно в выходных журналах инструмента. Оно становится видимым, когда запрос на доступ к данным субъектов, аудит надзорного органа или утечка данных показывает, что неанглийские идентификаторы не были удалены.
Исследования, сравнивающие гибридные многоязычные подходы к обнаружению PII с монолингвальными инструментами, ориентированными на английский, показали, что гибридные подходы достигают F1-оценок от 0.60 до 0.83 в различных европейских регионах — по сравнению с почти нулевой производительностью инструментов, ориентированных только на английский, применяемых к форматам неанглийских идентификаторов.
Что требуется для комплексного охвата
Истинное многоязычное обнаружение PII для соблюдения требований GDPR ЕС требует трех архитектурных уровней, работающих в комбинации:
Языковые модели spaCy обеспечивают семантическое понимание имен, организаций и мест в языке текста. Модель spaCy, обученная на немецком тексте, понимает, что "Müller" — это распространенная фамилия в немецком контексте — а не просто заглавное слово. Модели существуют для 25 языков ЕС с высоким ресурсом.
Модели Stanza NLP расширяют охват на дополнительные языки, не охваченные spaCy на том же уровне точности.
Модели трансформеров кросс-языка (XLM-RoBERTa) обрабатывают кросс-языковую неоднозначность, которую чистое сопоставление шаблонов не может решить — распознавая, что имя, появляющееся в французском предложении, является именем человека, даже если движок обнаружения не был специально обучен на этом имени.
Регулярные выражения с валидацией, специфичной для юрисдикции, охватывают структурированные национальные идентификаторы — Steuer-ID, NIR, PESEL, Personnummer — с валидацией контрольной суммы, которая исключает ложные срабатывания.
Для сотрудника по соблюдению требований, чей инструмент в настоящее время пропускает неанглийские идентификаторы: разрыв является структурным, а не конфигурационным. Добавление списков слов или расширение охвата регулярных выражений дает незначительное улучшение. Комплексное соблюдение требований GDPR ЕС для многоязычных данных требует инструмента, построенного с учетом охвата идентификаторов ЕС как требования дизайна, а не как второстепенной задачи.
Источники: