Инструменты защиты ПДн только на английском: пробел в GDPR
GDPR не отдаёт предпочтения какому-либо языку
GDPR распространяется на персональные данные на любом языке. Немецкий, французский, польский, шведский — все языки защищены в равной мере. Пропущенный Steuer-ID создаёт такой же правовой риск, что и пропущенный номер социального страхования США. Закон не интересуется языком.
Большинство инструментов обнаружения ПДн — интересуются.
Ведущие коммерческие и открытые инструменты создавались для работы с англоязычными текстами. Это отражается на их детекторах сущностей. Они хорошо распознают номера социального страхования США, американские водительские удостоверения и телефонные форматы NANP. Детекторы неанглийских национальных идентификаторов значительно менее точны. Они хуже поддерживаются. Они чаще пропускают реальные идентификаторы.
Для компаний в странах ЕС это создаёт пробел в покрытии. Инструмент сообщает о завершённом обнаружении. Но неанглийские идентификаторы остаются в данных. Нередко именно они несут наибольший риск GDPR в конкретных странах.
Регуляторные органы это понимают. Аудиторы ищут именно это. Инструмент может хорошо работать с англоязычными записями. Но если он не справляется с немецкими или французскими — он не соответствует требованиям. Чистый отчёт этого не изменит.
Национальные идентификаторы различаются по структуре
Разрыв между инструментами, ориентированными на английский язык, и многоязычными решениями — это не вопрос добавления новых регулярных выражений. Национальные идентификаторы ЕС кардинально отличаются друг от друга. Для корректного обнаружения каждого из них нужна своя страновая логика.
Немецкий Steuer-Identifikationsnummer (Steuer-ID): 11 цифр. Использует контрольную сумму по варианту алгоритма Луна. Общее регулярное выражение для SSN не подойдёт. Выражение для любого 11-значного числа даст слишком много ложных срабатываний в немецких документах.
Французский NIR (Numéro d'inscription au répertoire): 15 цифр. Формат кодирует пол, год рождения, месяц рождения и департамент рождения. Также содержит порядковый номер рождения и 2-значный контрольный ключ. Для корректного обнаружения необходима валидация контрольного ключа.
Шведский Personnummer: 10 цифр с контрольной цифрой Луна. Для лиц, рождённых до 1990 года, вместо `-` используется разделитель `+`. Это меняет формат, подлежащий обнаружению.
Польский PESEL: 11 цифр. Кодирует дату рождения, пол и контрольную цифру на основе взвешенных сумм. Корректное обнаружение требует как сопоставления формата, так и валидации контрольной суммы.
Это не вариации одного общего шаблона. У каждого идентификатора своя длина, свой метод проверки и своя позиционная схема кодирования данных. NER-модель, обученная на английском тексте и увидевшая французский NIR, не распознает его как национальный идентификатор — проигнорирует или классифицирует неверно.
Практический риск несоответствия
Рассмотрим сотрудника по комплаенсу в европейском аутсорсинговом процессинговом бизнесе (BPO). Он одновременно обрабатывает данные из Германии, Франции, Польши и Нидерландов. Его инструмент сообщает об успешной анонимизации ПДн.
Но результат неполный. Steuer-ID в немецких записях остались. NIR в французских записях остались. PESEL в польских записях остались. Детекторы этих форматов в инструменте отсутствуют или недостаточно точны.
Позднее набор данных передаётся в аналитику или партнёру по исследованиям. Данные по-прежнему содержат повторно идентифицируемые национальные идентификаторы. Проблема GDPR не отражается в журналах вывода инструмента. Она всплывает при поступлении запроса на доступ к данным. Может всплыть во время аудита регулятора. Может всплыть после утечки данных.
Исследования, сравнивающие гибридные многоязычные подходы с инструментами, ориентированными на английский язык, дали однозначные результаты. Гибридные методы достигают F1-оценок от 0,60 до 0,83 по европейским локалям. Инструменты только для английского языка показывают близкие к нулю значения для неанглийских форматов национальных идентификаторов.
См. наш обзор соответствия требованиям GDPR о том, как эти пробелы соотносятся с обязательствами по GDPR.
Что требует полное покрытие
По-настоящему многоязычное обнаружение ПДн для соблюдения GDPR ЕС требует трёх уровней.
Языконативные модели spaCy обеспечивают семантическое понимание на языке текста. Модель, обученная на немецком тексте, знает, что «Мюллер» — распространённая немецкая фамилия. Модели существуют для 25 высокоресурсных языков ЕС.
Модели Stanza NLP расширяют покрытие на языки, отсутствующие в spaCy. Это увеличивает охват для более широкого круга языковых сообществ ЕС.
Кросс-лингвальные трансформерные модели (XLM-RoBERTa) обрабатывают межъязыковые случаи. Имя в французском предложении распознаётся как имя человека — даже если движок не обучался на конкретном имени.
Регулярные выражения с валидацией по стране охватывают структурированные национальные идентификаторы. Для Steuer-ID, NIR, PESEL и Personnummer требуется своя логика контрольных сумм. Это снижает количество ложных срабатываний: числовые последовательности, не прошедшие страновые правила валидации, отфильтровываются.
Пробел носит структурный характер. Добавление словарей или дополнительных регулярных выражений даёт лишь незначительное улучшение. Единственный надёжный подход — изначально встроить покрытие идентификаторов ЕС.
Проверьте ваш текущий инструмент
Запросите у поставщика F1-оценки для немецких, французских, польских и нидерландских записей. «Поддержка нескольких языков» нередко означает предварительный машинный перевод. Это не нативное сканирование. Соответствие GDPR требует нативного сканирования.
Проведите тест с реальными образцами национальных идентификаторов. Сформируйте небольшой тестовый набор из 10 примеров каждого типа идентификатора, используемого в вашей работе: Steuer-ID, NIR, PESEL, Personnummer. Проверьте показатели обнаружения. Это быстрее полного F1-теста и оперативно выявляет пробелы.
См. нашу страницу безопасности и соответствия требованиям о том, как anonym.legal решает эти задачи. Определения типов сущностей см. в справочнике по сущностям.