anonym.legal

By · Last updated 2026-03-03

Назад на блоготGDPR & Усогласеност

Повеќејазично откривање на PII за GDPR

Германско Steuer-ID, француско NIR и шведско Personnummer сите бараат различна логика за откривање. Дознајте kako да изградите усогласено откривање на PII за сите јазици на ЕУ.

March 3, 202610 мин читање
multilingualGDPRNLPPII detectionEuropean compliancespaCyXLM-RoBERTa

Повеќејазично откривање на PII за GDPR

Ажурирано за 2026 година

Скриениот јаз во GDPR

GDPR нема јазична преференца. Член 4(1) ги дефинира "личните податоци" без да го именува јазикот во кој се наоѓаат. Германско Steuer-ID е исто толку заштитено колку и американски број за социјално осигурување. Француско NIR е исто толку регулирано колку и британски број за национално осигурување.

Повеќето алатки за откривање на PII беа изградени само за англиски.

Истражувањето на ACL 2024 открило дека хибридните NLP алатки достигнуваат F1 резултати од 0,60-0,83 за европски локализации. Алатките само за англиски резултати скоро нула за формати на национални ID-ови кои не се на англиски. Јазот е голем. Алатка може да фати 95% од английскиот PII. Сепак пропушта 40-60% од германскиот, францускиот, полскиот или холандскиот PII во истата датотека. Тоа е сериозен проблем. Ги изложува компаниите.

Ова е реален јаз во GDPR. Тоа влијае на речиси секоја глобална фирма која користи алатки за редакција центрирани на англиски. Видете го нашиот водич за GDPR за повеќе.

Зошто PII е специфично за локалот

Откривањето на PII има два дела.

Првиот е скенирање базирано на обрасци. Ова покрива структурирани ИД-ови како даночни броеви и телефонски формати.

Вториот е скенирање базирано на NER. Ова покрива контекстуални ентитети како имиња и адреси.

Обата дела зависат од локалот.

Структурираните ИД-ови се разликуваат по земји

ЗемјаДаночно ИДФорматВалидација
ГерманијаSteuer-ID11 цифриМодуло-11
ФранцијаNIR15 цифри + 2-цифрен клучINSEE
ШведскаPersonnummer10 цифриLuhn
ПолскаPESEL11 цифриМодуло-10
ХоландијаBSN9 цифриElfproef
ШпанијаDNI/NIE8 цифри + букваМодуло-23
ИталијаCodice Fiscale16 знациПриспособена контролна сума

Англиски само regex за SSN-ови (NNN-NN-NNNN) нема да одговара на ниеден од овие формати. Секој потребува свој regex. Секој исто така потребува своја логика за контролна сума.

NER потребува нативни модели

Германските имиња се разликуваат од англиските. "Hans-Dieter Muller" е јасен за нативен германски модел. Модел обучен на англиски честопати ги пропушта такви имиња.

Лажни позитиви се исто така проблем. Следачот на проблеми на Microsoft Presidio покажува германски зборови погрешно класифицирани како англиски PII. Зборот "Null" (германски за "нула") е еден пример. Предизвикува лажни удари на имиња во модели обучени на англиски. Во производна употреба, стапките на грешки се зголемуваат на 3 лажни позитиви по реален ентитет (Alvaro et al., 2024).

Регулаторен ризик

Органите за податоци на ЕУ се свесни за овој проблем. Неколку национални DPA-и издале насоки.

Германски BfDI: GDPR член 5(1)(f) се применува на сите записи. Ги покрива не-английски податоци обработени од алатки на трети страни.

Француски CNIL: Годишниот извештај на CNIL 2024 изрази загриженост. Означи AI алатки кои ракуваат со французски записи без скенирање на PII во француска локализација.

EU DPA-и во целина: GDPR член 25 (Приватност по дизајн) бара заштитни мерки соодветни за вистинските записи кои се обработуваат. Ова вклучува не-английски PII во глобални распоредувања.

Ризикот е јасен. Фирма може да покаже 95% откривање на PII на содржина на англиски во GDPR ревизија. Но ако исто така ракува со германски, француски и полски записи со истата алатка, ќе се появат јазови. Ревизорите забележуваат. Казните можат да следат. Видете ја нашата страница за заштитни мерки за тоа kako го решаваме ова.

Дизајн со три нивоа

Истражувањето и производствената употреба се согласуваат дека хибридниот дизајн со три нивоа е најдобриот пристап.

Ниво 1: Нативни модели на spaCy

spaCy обезбедува обучени модели за 25 локализации. Тие вклучуваат германски, француски, шпански, португалски, италијански, холандски, руски, кинески, јапонски, корејски и полски. Секој модел се обучува на нативен текст. Учат ја синтаксата и обрасците на ентитети на секоја локализација. Ова е важно. Нативната обука значи подобро повикување и помалку лажни позитиви.

За германски: de_core_news_lg ракува со составени именки и германски обрасци на имиња. За француски: fr_core_news_lg ракува со француски ентитети, наслови, имиња на места и организации.

Нативните модели ги надминуваат меѓујазичните модели за скенирање на имиња на локализации со многу ресурси.

Ниво 2: Stanza за повеќе локализации

Библиотеката Stanza на Stanford ги покрива локализациите кои не се во spaCy. Тие вклучуваат хрватски, словенечки и украински. Ова додава опсег за говорни групи во ЕУ кои spaCy не ги опслужува. Stanza е бесплатна и со отворен код. Добро се интегрира со остатокот од стекот.

Ниво 3: XLM-RoBERTa за широк опсег

За локализации каде spaCy и Stanza немаат NER модели, XLM-RoBERTa го пополнува јазот. Обучува се на текст од Common Crawl низ 100 локализации. Постигнува 91,4% меѓујазичен F1 за откривање на PII (HuggingFace 2024). Добро ракува со префрлување на кодови. Тоа е клучна функција. Важи кога еден документ содржи текст на неколку локализации одеднаш.

Посетете ги нашите документи за системот на токени за да видите kako повиците на API се зголемуваат со повеќејазичен обем.

Типови на ентитети специфични за локалот

Моделите сами по себе не се доволни. GDPR усогласувањето исто така бара опсег на типови ентитети за специфични за земјата ИД-ови.

Национални ИД-ови во ЕУ по земји:

  • DE: Steuer-ID, Sozialversicherungsnummer, Personalausweisnummer
  • FR: NIR, SIREN, SIRET
  • PL: PESEL, NIP, REGON
  • NL: BSN
  • SE: Personnummer, Samordningsnummer
  • ES: DNI, NIE, NIF, CIF
  • IT: Codice Fiscale, Partita IVA

Формати на телефони: Секоја земја во ЕУ има уникатни структури на префикси. +49, +33 и +48 секој потребуваат своја логика за валидација.

Формати на адреси: Поштенските кодови значително варираат. Германскиот PLZ користи 5 цифри. Францускиот кодови користат 5 цифри (опсег 01-99). Британскиот поштенски кодови се алфанумерички. Шпанскиот кодови користат 5 цифри (01000-52999).

Реален случај: Швајцарска фармацевтска компанија

Швајцарска фирма обработува договори за вработување. Секој договор меша германски, француски и англиски текст. Швајцарија има четири официјални јазика. Нивната алатка беше поставена само за германски. Го пропуштила сиот PII во францускиот дел.

Договорот за вработен базиран во Женева вклучувал француски AVS број (13 цифри), швајцарски банкарски IBAN и иле во француски формат. Алатката само за германски го пропуштила името во француски формат. Не успеала да го пронајде францускиот AVS број. Само делумно го открила IBAN.

Пристапот со три нивоа го обработува целиот документ. Открива локализација по текстуален сегмент. Го применува правилниот NER модел за секој дел. Го валидира секое национално ИД со точна логика за земјата.

Документи со мешани локализации

Најтешкиот случај е мешање на локализации внатре во документот. Примери:

  • Договорот на германска фирма на англиски со германски записи на вработени (имиња, даночни ИД-ови)
  • Формулар за согласност на GDPR на француски со извадок за приватност на англиски
  • Разговор каде агентот одговара на англиски, а клиентот пишува на арапски

XLM-RoBERTa ова го ракува нативно. Не потребуваат изрични ознаки за локализација. Го обработува текстот со мешани локализации без претходна сегментација. Ова штеди време. Исто така избегнува грешки од дефектни поделби.

За производна употреба, комбинирањето на автоматско откривање на локализација (на ниво на реченица) со заклучок на XLM-RoBERTa дава робусно ракување со документи со мешани локализации.

Практични чекори

Ревидирајте го опсегот на вашата алатка. Прашајте го вашиот продавач за редакција за F1 резултати за вашите специфични локализации. "Поддржува 20 јазика" честопати значи дека алатката го рутира текстот преку машинско преведување прво. Тоа не е нативно скенирање.

Пресликајте ги вашите записи на локализации. Направете инвентар на записи кој го вклучува распределбата на локализации. Глобална фирма со 70% англиски, 20% германски и 10% француски се соочува со различни ризици. Онаа со 95% англиски е во различна положба.

Тестирајте со примероци на национални ИД-ови. Изградете тест сет со 10 примери на националните ИД-ови во вашите операции — Steuer-ID, NIR, PESEL, BSN и другите. Верификувајте ги стапките на откривање. Ова е побрзо од целосен F1 тест.

Прегледајте ги вашите DPIA-и. Проверете дали опсегот на локализација е вклучен. Нецелосен DPIA кој претпоставува само английски записи може да потреба ажурирање. Делувајте сега. Не чекајте ревизијата да го открие јазот.

За целосни дефиниции на типови на ентитети, видете ја референцата за ентитети и FAQ. За планови и стапки на повик на API, посетете ги цените.


Моторот за откривање на PII на anonym.legal користи тро-нивовски повеќејазичен пристап. Покрива 25 локализации со многу ресурси преку нативни modeli на spaCy. Stanza додава дополнителен опсег на локализации. Меѓујазичните трансформери XLM-RoBERTa го прошируваат опсегот на 48 локализации. Типовите на ентитети специфични за земјата за сите земји-членки на ЕУ се вклучени.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.