anonym.legal

By · Last updated 2026-03-20

Назад към блогаGDPR и съответствие

Инструменти за PII само на английски: Пропастта в GDPR

Немски Steuer-ID (11 цифри с контролна сума) е структурно различен от американски SSN. Французките NIR номера имат 15 цифри. Полският PESEL и шведският Personnummer... повечето инструменти за PII ги пропускат.

March 20, 20268 мин. четене
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Инструменти за PII само на английски: Пропастта в GDPR

GDPR няма езикови предпочитания

GDPR покрива лични данни на всеки език. Немски, французки, полски, шведски - всички са покрити еднакво. Пропуснат Steuer-ID създава същия правен риск като пропуснат номер за социалното осигуряване. Законът не се интересува от езика.

Повечето инструменти за PII детекция обаче се интересуват.

Водещите търговски и с отворен код инструменти са създадени за английски текст. Техните детектори за субекти отразяват това. Покриват добре американски номера за социалното осигуряване, американски шофьорски книжки и телефонни формати NANP. Детекторите за неанглийски национални идентификатори са по-малко точни. По-слабо се поддържат. По-често пропускат реални идентификатори.

За фирми в страните-членки на ЕС това създава пропуск в покритието. Инструментът докладва, че детекцията е завършена. Но неанглийски идентификатори остават в данните. Те често са идентификаторите с най-голяма GDPR-експозиция в определени страни.

Надзорните органи за данни го виждат. Одиторите го търсят. Инструментът може да работи добре с английски записи. Но ако се проваля с немски или французки записи, не е съвместим. Чистият доклад не променя това.

Националните идентификатори се различават по структура

Пропастта между инструментите, центрирани върху английски, и многоезичните инструменти не е въпрос на добавяне на повече регулярни изрази. Националните идентификатори на ЕС са много различни един от друг. Те изискват специфична за страната логика, за да бъдат открити правилно.

Германски Steuer-Identifikationsnummer (Steuer-ID): 11 цифри. Използва контролна сума, базирана на вариант на формулата на Луан. Общ регулярен израз за SSN няма да го открие. Регулярен израз за произволни 11-цифрени числа създава твърде много фалшиви позитиви в немски документи.

Французки NIR (Numero d'inscription au repertoire): 15 цифри. Форматът кодира пол, година на раждане, месец на раждане и департамент на раждане. Включва и поредност на раждане и 2-цифрен контролен ключ. Контролният ключ трябва да се валидира за правилна детекция.

Шведски Personnummer: 10 цифри с контролна цифра по Луан. Хората, родени преди 1990 г., използват разделител + вместо -. Това променя формата, който трябва да бъде открит.

Полски PESEL: 11 цифри. Кодира дата на раждане, пол и контролна цифра, базирана на претеглени суми. Правилната детекция изисква едновременно съвпадение на формат и валидиране на контролната сума.

Това не са варианти на общ шаблон. Всеки има различна дължина. Всеки използва различен метод за проверка. Всеки кодира данни в различна схема. Модел за разпознаване на именувани субекти, обучен на английски, виждайки французки NIR, няма да го разпознае като национален идентификатор. Ще го игнорира или неправилно класифицира.

Практическият риск за съответствие

Представете си служител по съответствие в европейски BPO. Едновременно обработват данни от Германия, Франция, Полша и Нидерландия. Инструментът им докладва успешна анонимизация на PII.

Но резултатът не е пълен. Steuer-ID в немски записи остават. NIR номера във французки записи остават. PESEL номера в полски записи остават. Детекторите на инструмента за тези формати липсват или са твърде неточни.

По-късно наборът от данни отива за анализи или до изследователски партньор. Данните все още съдържат реидентифицируеми национални идентификатори. GDPR проблемът не се появява в изходните логове на инструмента. Той се появява, когато пристигне заявка за достъп от субект на данни. Може да се появи по време на одит от надзорен орган. Може да се появи след пробив на данни.

Изследвания, сравняващи хибридни многоезични подходи с инструменти, центрирани върху английски, показват ясни резултати. Хибридните методи постигат F1 оценки от 0.60 до 0.83 в европейски локали. Инструментите само на английски отбелязват близо нула за форматите на националните идентификатори извън английски.

Вижте нашия преглед на съответствието с GDPR за това как тези пропуски се свързват с задълженията по GDPR.

Какво изисква пълното покритие

Истинската многоезична PII детекция за съответствие с ЕС GDPR изисква три нива.

Родно-езикови модели spaCy осигуряват семантично разбиране на езика на текста. Модел, обучен на немски текст, знае, че "Muller" е популярно немско фамилно име. Съществуват модели за 25 езика с богати ресурси в ЕС.

Stanza NLP модели разширяват покритието за езици, които не са в spaCy. Това добавя обхват за повече езикови общности в ЕС.

Многоезични трансформерни модели (XLM-RoBERTa) обработват многоезични случаи. Едно и също лично на французко изречение се разпознава като лично. Работи дори ако двигателят не е бил обучен на конкретното лично.

Regex с валидиране, специфично за страната, покрива структурирани национални идентификатори. Steuer-ID, NIR, PESEL и Personnummer всяко изисква собствена логика за контролна сума. Това намалява фалшивите позитиви. Цифровите последователности, които не преминават правилата за валидиране на страната, се филтрират.

Пропастта е структурна. Добавянето на списъци с думи или повече регулярни изрази дава само малко подобрение. Изграждането на покритие на идентификаторите на ЕС от самото начало е единственият надежден подход.

Проверете настоящия си инструмент

Поискайте от доставчика си F1 оценки за немски, французки, полски и нидерландски записи. "Поддържа множество езици" често означава, че инструментът първо използва превод. Това не е родно сканиране. GDPR съответствието изисква родно сканиране.

Тествайте с реални образци на национални идентификатори. Изградете кратък тестов набор с 10 примера от всеки тип идентификатор в операциите ви. Steuer-ID, NIR, PESEL, Personnummer. Проверете процентите на детекция. Това е по-бързо от пълен F1 тест и бързо показва пропуски.

Вижте нашата страница за сигурност и съответствие за това как anonym.legal адресира тези изисквания. За дефиниции на типовете субекти посетете справочника за субекти.

Източници

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.