Инструменти за PII само на английски: Пропастта в GDPR
GDPR няма езикови предпочитания
GDPR покрива лични данни на всеки език. Немски, французки, полски, шведски - всички са покрити еднакво. Пропуснат Steuer-ID създава същия правен риск като пропуснат номер за социалното осигуряване. Законът не се интересува от езика.
Повечето инструменти за PII детекция обаче се интересуват.
Водещите търговски и с отворен код инструменти са създадени за английски текст. Техните детектори за субекти отразяват това. Покриват добре американски номера за социалното осигуряване, американски шофьорски книжки и телефонни формати NANP. Детекторите за неанглийски национални идентификатори са по-малко точни. По-слабо се поддържат. По-често пропускат реални идентификатори.
За фирми в страните-членки на ЕС това създава пропуск в покритието. Инструментът докладва, че детекцията е завършена. Но неанглийски идентификатори остават в данните. Те често са идентификаторите с най-голяма GDPR-експозиция в определени страни.
Надзорните органи за данни го виждат. Одиторите го търсят. Инструментът може да работи добре с английски записи. Но ако се проваля с немски или французки записи, не е съвместим. Чистият доклад не променя това.
Националните идентификатори се различават по структура
Пропастта между инструментите, центрирани върху английски, и многоезичните инструменти не е въпрос на добавяне на повече регулярни изрази. Националните идентификатори на ЕС са много различни един от друг. Те изискват специфична за страната логика, за да бъдат открити правилно.
Германски Steuer-Identifikationsnummer (Steuer-ID): 11 цифри. Използва контролна сума, базирана на вариант на формулата на Луан. Общ регулярен израз за SSN няма да го открие. Регулярен израз за произволни 11-цифрени числа създава твърде много фалшиви позитиви в немски документи.
Французки NIR (Numero d'inscription au repertoire): 15 цифри. Форматът кодира пол, година на раждане, месец на раждане и департамент на раждане. Включва и поредност на раждане и 2-цифрен контролен ключ. Контролният ключ трябва да се валидира за правилна детекция.
Шведски Personnummer: 10 цифри с контролна цифра по Луан. Хората, родени преди 1990 г., използват разделител + вместо -. Това променя формата, който трябва да бъде открит.
Полски PESEL: 11 цифри. Кодира дата на раждане, пол и контролна цифра, базирана на претеглени суми. Правилната детекция изисква едновременно съвпадение на формат и валидиране на контролната сума.
Това не са варианти на общ шаблон. Всеки има различна дължина. Всеки използва различен метод за проверка. Всеки кодира данни в различна схема. Модел за разпознаване на именувани субекти, обучен на английски, виждайки французки NIR, няма да го разпознае като национален идентификатор. Ще го игнорира или неправилно класифицира.
Практическият риск за съответствие
Представете си служител по съответствие в европейски BPO. Едновременно обработват данни от Германия, Франция, Полша и Нидерландия. Инструментът им докладва успешна анонимизация на PII.
Но резултатът не е пълен. Steuer-ID в немски записи остават. NIR номера във французки записи остават. PESEL номера в полски записи остават. Детекторите на инструмента за тези формати липсват или са твърде неточни.
По-късно наборът от данни отива за анализи или до изследователски партньор. Данните все още съдържат реидентифицируеми национални идентификатори. GDPR проблемът не се появява в изходните логове на инструмента. Той се появява, когато пристигне заявка за достъп от субект на данни. Може да се появи по време на одит от надзорен орган. Може да се появи след пробив на данни.
Изследвания, сравняващи хибридни многоезични подходи с инструменти, центрирани върху английски, показват ясни резултати. Хибридните методи постигат F1 оценки от 0.60 до 0.83 в европейски локали. Инструментите само на английски отбелязват близо нула за форматите на националните идентификатори извън английски.
Вижте нашия преглед на съответствието с GDPR за това как тези пропуски се свързват с задълженията по GDPR.
Какво изисква пълното покритие
Истинската многоезична PII детекция за съответствие с ЕС GDPR изисква три нива.
Родно-езикови модели spaCy осигуряват семантично разбиране на езика на текста. Модел, обучен на немски текст, знае, че "Muller" е популярно немско фамилно име. Съществуват модели за 25 езика с богати ресурси в ЕС.
Stanza NLP модели разширяват покритието за езици, които не са в spaCy. Това добавя обхват за повече езикови общности в ЕС.
Многоезични трансформерни модели (XLM-RoBERTa) обработват многоезични случаи. Едно и също лично на французко изречение се разпознава като лично. Работи дори ако двигателят не е бил обучен на конкретното лично.
Regex с валидиране, специфично за страната, покрива структурирани национални идентификатори. Steuer-ID, NIR, PESEL и Personnummer всяко изисква собствена логика за контролна сума. Това намалява фалшивите позитиви. Цифровите последователности, които не преминават правилата за валидиране на страната, се филтрират.
Пропастта е структурна. Добавянето на списъци с думи или повече регулярни изрази дава само малко подобрение. Изграждането на покритие на идентификаторите на ЕС от самото начало е единственият надежден подход.
Проверете настоящия си инструмент
Поискайте от доставчика си F1 оценки за немски, французки, полски и нидерландски записи. "Поддържа множество езици" често означава, че инструментът първо използва превод. Това не е родно сканиране. GDPR съответствието изисква родно сканиране.
Тествайте с реални образци на национални идентификатори. Изградете кратък тестов набор с 10 примера от всеки тип идентификатор в операциите ви. Steuer-ID, NIR, PESEL, Personnummer. Проверете процентите на детекция. Това е по-бързо от пълен F1 тест и бързо показва пропуски.
Вижте нашата страница за сигурност и съответствие за това как anonym.legal адресира тези изисквания. За дефиниции на типовете субекти посетете справочника за субекти.