anonym.legal

By · Last updated 2026-03-03

Назад до блогуGDPR та відповідність

Багатомовне виявлення PII для GDPR

Steuer-ID у Німеччині, NIR у Франції та Personnummer у Швеції — кожен потребує різної логіки виявлення.

March 3, 202610 хв читання
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Багатомовне виявлення PII для GDPR

Оновлено для 2026 року

Прихована прогалина GDPR

GDPR не має мовних переваг. Стаття 4(1) визначає «персональні дані» без вказівки мови, якою вони написані. Steuer-ID у Німеччині захищений так само, як номер соціального страхування США. Французький NIR регулюється так само, як британський номер національного страхування.

Більшість інструментів виявлення PII були створені лише для англійської мови.

Дослідження ACL 2024 показало, що гібридні NLP-інструменти досягають F1-показників 0,60–0,83 для європейських локалей. Інструменти лише для англійської мови отримують близько нуля для не-англійських форматів національних ідентифікаторів. Розрив разючий. Інструмент може виявляти 95% англійського PII. Проте він пропускає 40–60% німецького, французького, польського або нідерландського PII у тому самому файлі. Це серйозна проблема. Вона залишає компанії вразливими.

Це реальна прогалина GDPR. Вона торкається майже кожної глобальної фірми, що використовує інструменти редагування з фокусом на англійській мові. Дивіться наш посібник GDPR для більшої інформації.

Чому PII є специфічним для локалі

Виявлення PII має дві частини.

Перша — сканування на основі шаблонів. Охоплює структуровані ідентифікатори, як-от податкові номери та телефонні формати.

Друга — сканування на основі NER. Охоплює контекстуальні сутності, як-от імена та адреси.

Обидві частини залежать від локалі.

Структуровані ідентифікатори різняться за країнами

КраїнаПодатковий IDФорматВалідація
НімеччинаSteuer-ID11 цифрМодуло-11
ФранціяNIR15 цифр + 2-значний ключINSEE
ШвеціяPersonnummer10 цифрЛуна
ПольщаPESEL11 цифрМодуло-10
НідерландиBSN9 цифрElfproef
ІспаніяDNI/NIE8 цифр + літераМодуло-23
ІталіяCodice Fiscale16 символівСпеціальна контрольна сума

Англійський regex для SSN (NNN-NN-NNNN) не відповідатиме жодному з цих форматів. Кожен потребує власного regex. Кожен також потребує власної логіки контрольної суми.

NER потребує рідних моделей

Німецькі імена відрізняються від англійських. «Hans-Dieter Müller» є зрозумілим для рідної німецької моделі. Навчена на англійській модель часто пропускає такі імена.

Хибні спрацювання також є проблемою. Трекер проблем Microsoft Presidio показує, що німецькі слова класифікуються як англійський PII. Слово «Null» (по-німецьки «нуль») є одним із прикладів. Воно викликає хибні спрацювання імен у моделях, навчених на англійській. У виробничому використанні рівні помилок сягають 3 хибних спрацювань на одну реальну сутність (Alvaro et al., 2024).

Регуляторний ризик

Європейські органи захисту даних обізнані з цією проблемою. Кілька національних DPA видали рекомендації.

Німецький BfDI: Стаття 5(1)(f) GDPR застосовується до всіх записів. Вона охоплює не-англійські дані, оброблені інструментами третіх сторін.

Французький CNIL: Річний звіт CNIL за 2024 рік висловив занепокоєння. Він позначив інструменти ШІ, що обробляють французькі записи без французькомовного сканування PII.

ЄС DPA загалом: Стаття 25 GDPR (Захист даних за задумом) вимагає захисних заходів, що відповідають фактично оброблюваним записам. Це включає не-англійський PII у глобальних розгортаннях.

Ризик очевидний. Фірма може показати 95% виявлення PII на англійськомовному вмісті під час аудиту GDPR. Але якщо вона також обробляє німецькі, французькі та польські записи тим самим інструментом, прогалини з'являться. Аудитори це помічають. Штрафи можуть слідувати. Дивіться нашу сторінку захисних заходів для розуміння, як ми вирішуємо цю проблему.

Трирівневий дизайн

Дослідження та виробниче використання погоджуються, що трирівневий гібридний дизайн є найкращим підходом.

Рівень 1: Рідні моделі spaCy

spaCy надає навчені моделі для 25 локалей. До них відносяться німецька, французька, іспанська, португальська, італійська, нідерландська, російська, китайська, японська, корейська та польська. Кожна модель навчається на рідних текстах. Вони вивчають синтаксис і шаблони сутностей кожної локалі. Це важливо. Рідне навчання означає кращу повноту та менше хибних спрацювань.

Для німецької: de_core_news_lg обробляє складені іменники та шаблони німецьких імен. Для французької: fr_core_news_lg обробляє французькі сутності, звання, назви місць та організації.

Рідні моделі перевершують міжмовні моделі у скануванні імен для локалей із великими ресурсами.

Рівень 2: Stanza для більшої кількості локалей

Бібліотека Stanford Stanza охоплює локалі, відсутні в spaCy. До них відносяться хорватська, словенська та українська. Це розширює охоплення на групи мовців ЄС, яким spaCy не служить. Stanza є безкоштовним та відкритим. Він добре інтегрується з рештою стека.

Рівень 3: XLM-RoBERTa для широкого охоплення

Для локалей, де spaCy та Stanza не мають NER-моделей, XLM-RoBERTa заповнює прогалину. Він навчається на тексті Common Crawl у 100 локалях. Він досягає 91,4% міжмовного F1 для виявлення PII (HuggingFace 2024). Він добре обробляє перемикання кодів. Це ключова функція. Вона має значення, коли один документ містить текст кількома локалями одночасно.

Відвідайте наші документи токен-системи, щоб побачити, як масштабуються виклики API з багатомовним обсягом.

Типи сутностей, специфічні для локалі

Однієї лише моделі недостатньо. Відповідність GDPR також вимагає охоплення типів сутностей для ідентифікаторів, специфічних для кожної країни.

Національні ідентифікатори ЄС за країнами:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Телефонні формати: Кожна країна ЄС має унікальні структури префіксів. +49, +33 та +48 потребують власної логіки валідації.

Формати адрес: Поштові коди суттєво різняться. Німецький PLZ використовує 5 цифр. Французькі коди використовують 5 цифр (діапазон 01–99). Британські поштові коди є буквено-цифровими. Іспанські коди використовують 5 цифр (01000–52999).

Реальний кейс: швейцарська фармацевтична компанія

Швейцарська фірма обробляє трудові договори. Кожен договір містить текст на німецькій, французькій та англійській мовах. Швейцарія має чотири офіційні мови. Їхній інструмент був налаштований лише на німецьку. Він пропускав весь французькомовний PII.

Договір для співробітника з Женеви містив французький номер AVS (13 цифр), швейцарський банківський IBAN та ім'я у французькому форматі. Інструмент лише для німецької пропустив ім'я у французькому форматі. Він не знайшов французький номер AVS. Він лише частково виявив IBAN.

Трирівневий підхід обробляє весь документ. Він визначає локаль для кожного текстового сегменту. Він застосовує правильну NER-модель для кожної частини. Він валідує кожен національний ідентифікатор відповідною логікою країни.

Документи зі змішаними локалями

Найскладніший випадок — змішування локалей всередині одного документа. Приклади:

  • Англійський договір німецької фірми з даними про німецьких співробітників (імена, податкові ідентифікатори)
  • Форма згоди GDPR французькою з англійськими витяжками про конфіденційність
  • Чат, де агент відповідає англійською, а клієнт пише арабською

XLM-RoBERTa обробляє це природно. Явних маркерів локалі не потрібно. Він обробляє текст зі змішаними локалями без попередньої сегментації. Це економить час. Це також запобігає помилкам від неправильних поділів.

Для виробничого використання поєднання автоматичного визначення локалі (на рівні речення) з виводом XLM-RoBERTa дає надійну обробку документів зі змішаними локалями.

Практичні кроки

Перевірте охоплення вашого інструменту. Запитайте у вашого постачальника засобів редагування показники F1 для ваших конкретних локалей. «Підтримує 20 мов» часто означає, що інструмент спочатку пропускає текст через машинний переклад. Це не рідне сканування.

Складіть карту ваших записів за локалями. Проведіть інвентаризацію записів із включенням розподілу за локалями. Глобальна фірма з 70% англійською, 20% німецькою та 10% французькою стикається з різними ризиками. Та, що має 95% англійської, знаходиться в іншій ситуації.

Тестуйте з зразками національних ідентифікаторів. Побудуйте тестовий набір із 10 прикладів національних ідентифікаторів у вашій діяльності — Steuer-ID, NIR, PESEL, BSN та інших. Перевірте рівні виявлення. Це швидше, ніж повний тест F1.

Перевірте свої DPIA. Перевірте, чи охоплюється в них обсяг локалей. Неповна DPIA, що припускає лише англійськомовні записи, може потребувати оновлення. Дійте зараз. Не чекайте, поки аудит виявить прогалину.

Для повних визначень типів сутностей дивіться довідник сутностей та FAQ. Для планів та частот викликів API відвідайте ціноутворення.


Рушій виявлення PII anonym.legal використовує трирівневий багатомовний підхід. Він охоплює 25 локалей із великими ресурсами через рідні моделі spaCy. Stanza додає додаткове охоплення локалей. Міжмовні трансформери XLM-RoBERTa розширюють охоплення до 48 локалей. Типи сутностей, специфічні для кожної країни, для всіх держав-членів ЄС включені.

Джерела

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.