GDPR няма езикови предпочитания
Общият регламент за защита на данните се прилага еднакво за личните данни на немски, френски, полски, шведски, испански, италиански и всички други езици, обработвани от организации, които са предмет на регламента. Пропуснат идентификатор в немски клиентски данни създава същата регулаторна експозиция като пропуснат идентификатор в английски клиентски данни. GDPR не прави разлика по език.
Повечето инструменти за откриване на PII го правят.
Доминиращите търговски инструменти и инструменти за откриване на PII с отворен код са изградени и сравнени предимно с текст на английски език. Техните средства за разпознаване на обекти отразяват това: номера на социално осигуряване в САЩ, шофьорски книжки в САЩ, формати на американски паспорти и общи универсални идентификатори (имейл адреси, телефонни номера във формат NANP, номера на кредитни карти). Разпознавателите за неанглийски национални идентификатори — когато съществуват — често са по-малко точни, по-малко поддържани и е по-вероятно да дадат фалшиви отрицания.
За предприятията, опериращи в държавите-членки на ЕС, това създава систематичен пропуск в съответствие: инструментът отчита, че PII е открит и премахнат, но неанглийските идентификатори, които представляват най-голямата експозиция на GDPR в определени юрисдикции, остават в данните.
Структурната разлика между националните идентификатори
Разликата между ориентираните към английски инструменти и истински многоезичните инструменти не е въпрос на добавяне на повече модели на регулярни изрази. Форматите на националните идентификатори в държавите-членки на ЕС са структурно различни по начини, които изискват специфични за юрисдикцията познания за правилно откриване.
Немски Steuer-Identifikationsnummer (Steuer-ID): 11-цифрен данъчен идентификатор със специфичен алгоритъм за контролна сума, базиран на варианта на формулата на Luhn. Общият SSN регулярен израз няма да съответства на този формат. Регулярен израз, който съвпада с всяко 11-цифрено число, ще доведе до огромни фалшиви положителни проценти в немските финансови документи.
Френски NIR (Numéro d'inscription au répertoire): 15-цифрен идентификатор, включващ пола на притежателя, годината на раждане, месеца на раждане, кода на отдела за раждане или държавата, пореден номер на раждане и 2-цифрен контролен ключ. Откриването изисква разбиране на структурата и валидиране на контролния ключ.
Swedish Personnummer: 10-цифрен идентификатор (понякога с индикатор за век, който го прави 12 цифри) с контролна цифра на Luhn. Форматът варира в зависимост от възрастта: хората, родени преди 1990 г., използват + разделител вместо -, променяйки формата, който трябва да бъде открит.
Полски PESEL: 11-цифрен идентификатор, кодиращ рождена дата, пол и контролна цифра въз основа на алгоритъм за претеглена сума. Правилното откриване изисква както съвпадение на формата, така и проверка на контролната сума.
Това не са вариации на формат на общ модел. Те са структурно различни идентификатори с различни дължини, различни алгоритми за валидиране и различни схеми за позиционно кодиране. Обучен на английски NER модел, срещащ френски NIR в текст, няма да го разпознае като национален идентификатор — или ще го игнорира, или, ако съвпада с някакъв друг модел, ще го класифицира погрешно.
Практическата последица от съответствие
За служител по съответствието в европейска BPO, който обработва данни за обслужване на клиенти едновременно от Германия, Франция, Полша и Холандия, практическото последствие е систематична пропуска в откриването на неанглийски клиентски записи.
Инструментът на служителя по съответствието отчита успешно анонимизиране на PII. Анонимизираните данни все още съдържат Steuer-ID в немски записи, NIR номера във френски записи и PESEL номера в полски записи — защото разпознавателите на инструмента за тези формати или липсват, или са недостатъчно точни.
Когато анонимизираният набор от данни се използва по-късно за анализ, тестване или споделен с изследователски партньор, „анонимизираните“ данни все още съдържат данни за национален идентификатор, които могат да бъдат идентифицирани повторно. Нарушението GDPR не се вижда в изходните регистрационни файлове на инструмента. Става видимо, когато заявка за достъп на субект на данни, одит на надзорен орган или нарушение на сигурността на данните разкрие, че неанглийски идентификатори не са премахнати.
Изследване, сравняващо хибридни многоезични подходи за откриване на PII с едноезични инструменти, ориентирани към английски, установи, че хибридните подходи постигат F1 резултати от 0,60 до 0,83 в европейски локали — в сравнение с почти нулева производителност от инструменти само на английски, приложени към неанглийски формати на идентификатори.
Какво изисква цялостното покритие
Истинското многоезично откриване на PII за съответствие с EU GDPR изисква три архитектурни слоя, работещи в комбинация:
Моделите spaCy на роден език осигуряват семантично разбиране на имена, организации и местоположения на езика на текста. Модел spaCy, обучен на немски текст, разбира, че "Müller" е често срещано фамилно име в немски контекст - не само дума с главни букви. Съществуват модели за 25 езика на ЕС с голям ресурс.
Моделите Stanza NLP разширяват покритието до допълнителни езици, които не са обхванати от spaCy, при същото ниво на точност.
Междуезичните трансформаторни модели (XLM-RoBERTa) се справят с междуезиковата двусмисленост, която чистото съпоставяне на шаблони не може да адресира – разпознавайки, че име, появяващо се във френско изречение, е име на човек, дори ако машината за откриване не е специално обучена за това име.
Regex с валидиране, специфично за юрисдикцията обхваща структурирани национални идентификатори — Steuer-ID, NIR, PESEL, Personnummer — с валидиране на контролна сума, което елиминира фалшивите положителни резултати.
За служителя по съответствието, чийто инструмент в момента пропуска неанглийски идентификатори: празнината е структурна, а не конфигурационна. Добавянето на списъци с думи или разширяването на покритието на регулярните изрази осигурява незначително подобрение. Изчерпателното съответствие с EU GDPR за многоезични данни изисква инструмент, изграден с покритие на идентификатора на ЕС като изискване за дизайн, а не последваща мисъл.
Източници:
- [Хибридни методи за откриване на многоезични PII: Оценка на резултат F1 в локали на ЕС] (https://arxiv.org/pdf/2510.07551)
- [Откриване на PII в езици с нисък ресурс: академична оценка 2024] (https://dl.acm.org/doi/10.1145/3675888.3676036)
- [Техническа справка за идентификатор на PII за ЕС: формати Steuer-ID, NIR, PESEL] (https://tabularis.ai/blog/eu-pii-safeguard/)