Багатомовне виявлення PII для GDPR
Оновлено для 2026 року
Прихована прогалина GDPR
GDPR не має мовних переваг. Стаття 4(1) визначає «персональні дані» без вказівки мови, якою вони написані. Steuer-ID у Німеччині захищений так само, як номер соціального страхування США. Французький NIR регулюється так само, як британський номер національного страхування.
Більшість інструментів виявлення PII були створені лише для англійської мови.
Дослідження ACL 2024 показало, що гібридні NLP-інструменти досягають F1-показників 0,60–0,83 для європейських локалей. Інструменти лише для англійської мови отримують близько нуля для не-англійських форматів національних ідентифікаторів. Розрив разючий. Інструмент може виявляти 95% англійського PII. Проте він пропускає 40–60% німецького, французького, польського або нідерландського PII у тому самому файлі. Це серйозна проблема. Вона залишає компанії вразливими.
Це реальна прогалина GDPR. Вона торкається майже кожної глобальної фірми, що використовує інструменти редагування з фокусом на англійській мові. Дивіться наш посібник GDPR для більшої інформації.
Чому PII є специфічним для локалі
Виявлення PII має дві частини.
Перша — сканування на основі шаблонів. Охоплює структуровані ідентифікатори, як-от податкові номери та телефонні формати.
Друга — сканування на основі NER. Охоплює контекстуальні сутності, як-от імена та адреси.
Обидві частини залежать від локалі.
Структуровані ідентифікатори різняться за країнами
| Країна | Податковий ID | Формат | Валідація |
|---|---|---|---|
| Німеччина | Steuer-ID | 11 цифр | Модуло-11 |
| Франція | NIR | 15 цифр + 2-значний ключ | INSEE |
| Швеція | Personnummer | 10 цифр | Луна |
| Польща | PESEL | 11 цифр | Модуло-10 |
| Нідерланди | BSN | 9 цифр | Elfproef |
| Іспанія | DNI/NIE | 8 цифр + літера | Модуло-23 |
| Італія | Codice Fiscale | 16 символів | Спеціальна контрольна сума |
Англійський regex для SSN (NNN-NN-NNNN) не відповідатиме жодному з цих форматів. Кожен потребує власного regex. Кожен також потребує власної логіки контрольної суми.
NER потребує рідних моделей
Німецькі імена відрізняються від англійських. «Hans-Dieter Müller» є зрозумілим для рідної німецької моделі. Навчена на англійській модель часто пропускає такі імена.
Хибні спрацювання також є проблемою. Трекер проблем Microsoft Presidio показує, що німецькі слова класифікуються як англійський PII. Слово «Null» (по-німецьки «нуль») є одним із прикладів. Воно викликає хибні спрацювання імен у моделях, навчених на англійській. У виробничому використанні рівні помилок сягають 3 хибних спрацювань на одну реальну сутність (Alvaro et al., 2024).
Регуляторний ризик
Європейські органи захисту даних обізнані з цією проблемою. Кілька національних DPA видали рекомендації.
Німецький BfDI: Стаття 5(1)(f) GDPR застосовується до всіх записів. Вона охоплює не-англійські дані, оброблені інструментами третіх сторін.
Французький CNIL: Річний звіт CNIL за 2024 рік висловив занепокоєння. Він позначив інструменти ШІ, що обробляють французькі записи без французькомовного сканування PII.
ЄС DPA загалом: Стаття 25 GDPR (Захист даних за задумом) вимагає захисних заходів, що відповідають фактично оброблюваним записам. Це включає не-англійський PII у глобальних розгортаннях.
Ризик очевидний. Фірма може показати 95% виявлення PII на англійськомовному вмісті під час аудиту GDPR. Але якщо вона також обробляє німецькі, французькі та польські записи тим самим інструментом, прогалини з'являться. Аудитори це помічають. Штрафи можуть слідувати. Дивіться нашу сторінку захисних заходів для розуміння, як ми вирішуємо цю проблему.
Трирівневий дизайн
Дослідження та виробниче використання погоджуються, що трирівневий гібридний дизайн є найкращим підходом.
Рівень 1: Рідні моделі spaCy
spaCy надає навчені моделі для 25 локалей. До них відносяться німецька, французька, іспанська, португальська, італійська, нідерландська, російська, китайська, японська, корейська та польська. Кожна модель навчається на рідних текстах. Вони вивчають синтаксис і шаблони сутностей кожної локалі. Це важливо. Рідне навчання означає кращу повноту та менше хибних спрацювань.
Для німецької: de_core_news_lg обробляє складені іменники та шаблони німецьких імен.
Для французької: fr_core_news_lg обробляє французькі сутності, звання, назви місць та організації.
Рідні моделі перевершують міжмовні моделі у скануванні імен для локалей із великими ресурсами.
Рівень 2: Stanza для більшої кількості локалей
Бібліотека Stanford Stanza охоплює локалі, відсутні в spaCy. До них відносяться хорватська, словенська та українська. Це розширює охоплення на групи мовців ЄС, яким spaCy не служить. Stanza є безкоштовним та відкритим. Він добре інтегрується з рештою стека.
Рівень 3: XLM-RoBERTa для широкого охоплення
Для локалей, де spaCy та Stanza не мають NER-моделей, XLM-RoBERTa заповнює прогалину. Він навчається на тексті Common Crawl у 100 локалях. Він досягає 91,4% міжмовного F1 для виявлення PII (HuggingFace 2024). Він добре обробляє перемикання кодів. Це ключова функція. Вона має значення, коли один документ містить текст кількома локалями одночасно.
Відвідайте наші документи токен-системи, щоб побачити, як масштабуються виклики API з багатомовним обсягом.
Типи сутностей, специфічні для локалі
Однієї лише моделі недостатньо. Відповідність GDPR також вимагає охоплення типів сутностей для ідентифікаторів, специфічних для кожної країни.
Національні ідентифікатори ЄС за країнами:
- DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
- FR: NIR, SIREN, SIRET
- PL: PESEL, NIP, REGON
- NL: BSN
- SE: Personnummer, Samordningsnummer
- ES: DNI, NIE, NIF, CIF
- IT: Codice Fiscale, Partita IVA
Телефонні формати: Кожна країна ЄС має унікальні структури префіксів. +49, +33 та +48 потребують власної логіки валідації.
Формати адрес: Поштові коди суттєво різняться. Німецький PLZ використовує 5 цифр. Французькі коди використовують 5 цифр (діапазон 01–99). Британські поштові коди є буквено-цифровими. Іспанські коди використовують 5 цифр (01000–52999).
Реальний кейс: швейцарська фармацевтична компанія
Швейцарська фірма обробляє трудові договори. Кожен договір містить текст на німецькій, французькій та англійській мовах. Швейцарія має чотири офіційні мови. Їхній інструмент був налаштований лише на німецьку. Він пропускав весь французькомовний PII.
Договір для співробітника з Женеви містив французький номер AVS (13 цифр), швейцарський банківський IBAN та ім'я у французькому форматі. Інструмент лише для німецької пропустив ім'я у французькому форматі. Він не знайшов французький номер AVS. Він лише частково виявив IBAN.
Трирівневий підхід обробляє весь документ. Він визначає локаль для кожного текстового сегменту. Він застосовує правильну NER-модель для кожної частини. Він валідує кожен національний ідентифікатор відповідною логікою країни.
Документи зі змішаними локалями
Найскладніший випадок — змішування локалей всередині одного документа. Приклади:
- Англійський договір німецької фірми з даними про німецьких співробітників (імена, податкові ідентифікатори)
- Форма згоди GDPR французькою з англійськими витяжками про конфіденційність
- Чат, де агент відповідає англійською, а клієнт пише арабською
XLM-RoBERTa обробляє це природно. Явних маркерів локалі не потрібно. Він обробляє текст зі змішаними локалями без попередньої сегментації. Це економить час. Це також запобігає помилкам від неправильних поділів.
Для виробничого використання поєднання автоматичного визначення локалі (на рівні речення) з виводом XLM-RoBERTa дає надійну обробку документів зі змішаними локалями.
Практичні кроки
Перевірте охоплення вашого інструменту. Запитайте у вашого постачальника засобів редагування показники F1 для ваших конкретних локалей. «Підтримує 20 мов» часто означає, що інструмент спочатку пропускає текст через машинний переклад. Це не рідне сканування.
Складіть карту ваших записів за локалями. Проведіть інвентаризацію записів із включенням розподілу за локалями. Глобальна фірма з 70% англійською, 20% німецькою та 10% французькою стикається з різними ризиками. Та, що має 95% англійської, знаходиться в іншій ситуації.
Тестуйте з зразками національних ідентифікаторів. Побудуйте тестовий набір із 10 прикладів національних ідентифікаторів у вашій діяльності — Steuer-ID, NIR, PESEL, BSN та інших. Перевірте рівні виявлення. Це швидше, ніж повний тест F1.
Перевірте свої DPIA. Перевірте, чи охоплюється в них обсяг локалей. Неповна DPIA, що припускає лише англійськомовні записи, може потребувати оновлення. Дійте зараз. Не чекайте, поки аудит виявить прогалину.
Для повних визначень типів сутностей дивіться довідник сутностей та FAQ. Для планів та частот викликів API відвідайте ціноутворення.
Рушій виявлення PII anonym.legal використовує трирівневий багатомовний підхід. Він охоплює 25 локалей із великими ресурсами через рідні моделі spaCy. Stanza додає додаткове охоплення локалей. Міжмовні трансформери XLM-RoBERTa розширюють охоплення до 48 локалей. Типи сутностей, специфічні для кожної країни, для всіх держав-членів ЄС включені.
Джерела
- ACL 2024: Гібридне виявлення PII для європейських локалей
- Масштабована багатомовна система анотування PII (arXiv 2025)
- Бенчмарки міжмовного NER HuggingFace XLM-RoBERTa
- Microsoft Presidio GitHub Issue #1071 — Хибні спрацювання для German
- Рекомендації EDPB щодо Статті 25 щодо захисту даних за задумом
- Річний звіт CNIL 2024