anonym.legal

By · Last updated 2026-03-20

Înapoi la BlogGDPR & Conformitate

Instrumente PII doar în Engleză: Decalajul GDPR

Un Steuer-ID german (11 cifre cu sumă de control) este structural diferit de un SSN american. Numerele NIR franceze au 15 cifre. PESEL polonez și Personnummer suedez.

March 20, 20268 min citire
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

Instrumente PII doar în Engleză: Decalajul GDPR

GDPR Nu Are Preferințe de Limbă

GDPR acoperă datele personale în orice limbă. Germană, franceză, poloneză, suedeză — toate sunt acoperite în mod egal. Un Steuer-ID ratat creează același risc legal ca un număr de securitate socială american ratat. Legea nu ține cont de limbă.

Cele mai multe instrumente de detectare PII o fac.

Principalele instrumente comerciale și open-source au fost construite pentru text în engleză. Detectoarele lor de entități reflectă acest lucru. Acoperă bine numerele de securitate socială americane, permisele de conducere americane și formatele de telefon NANP. Detectoarele pentru actele naționale de identitate non-engleze sunt mai puțin precise. Sunt mai puțin bine întreținute. Omit identificatorii reali mai frecvent.

Pentru firmele din statele membre ale UE, aceasta creează un decalaj de acoperire. Instrumentul raportează că detectarea este completă. Dar identificatorii non-englezi rămân în date. Aceștia sunt adesea identificatorii cu cel mai mare risc GDPR în anumite țări.

Autoritățile de date observă acest lucru. Auditorii îl caută. Un instrument poate funcționa bine pe înregistrări în engleză. Dar dacă eșuează pe înregistrări în germană sau franceză, nu este conform. Un raport curat nu schimbă aceasta.

Actele Naționale de Identitate Diferă ca Structură

Decalajul dintre instrumentele centrate pe engleză și instrumentele multilingve nu este o chestiune de adăugare a mai multor tipare regex. Identificatorii naționali din UE sunt foarte diferiți unii de alții. Au nevoie de logică specifică fiecărei țări pentru a fi detectați corect.

Steuer-Identifikationsnummer german (Steuer-ID): 11 cifre. Folosește o sumă de control bazată pe o variantă a formulei Luhn. Un regex generic pentru SSN nu îl va potrivi. Un regex pentru orice număr de 11 cifre creează prea multe false pozitive în documentele germane.

NIR francez (Numéro d'inscription au répertoire): 15 cifre. Formatul codifică sexul, anul nașterii, luna nașterii și departamentul de naștere. Include, de asemenea, ordinea nașterii și o cheie de control de 2 cifre. Cheia de control trebuie validată pentru o detectare corectă.

Personnummer suedez: 10 cifre cu o cifră de control Luhn. Persoanele născute înainte de 1990 folosesc un separator + în loc de -. Aceasta schimbă formatul care trebuie detectat.

PESEL polonez: 11 cifre. Codifică data nașterii, genul și o cifră de control bazată pe sume ponderate. Detectarea corectă necesită atât potrivirea formatului, cât și validarea sumei de control.

Acestea nu sunt variante ale unui tipar comun. Fiecare are o lungime diferită. Fiecare folosește o metodă de control diferită. Fiecare codifică datele într-o schemă diferită de poziționare. Un model NER antrenat pe engleză care vede un NIR francez nu îl va recunoaște ca identificator național. Îl va ignora sau îl va clasifica greșit.

Riscul Practic de Conformitate

Luați în considerare un ofițer de conformitate la un BPO european. Procesează simultan date din Germania, Franța, Polonia și Olanda. Instrumentul lor raportează anonimizare PII reușită.

Dar rezultatul nu este complet. Steuer-ID-urile din înregistrările germane rămân. Numerele NIR din înregistrările franceze rămân. Numerele PESEL din înregistrările poloneze rămân. Detectoarele instrumentului pentru aceste formate lipsesc sau sunt prea imprecise.

Ulterior, setul de date ajunge la analiză sau la un partener de cercetare. Datele conțin în continuare identificatori naționali re-identificabili. Problema GDPR nu apare în jurnalele de ieșire ale instrumentului. Apare când sosește o solicitare de acces a persoanei vizate. Poate apărea în timpul unui audit al autorității de date. Poate apărea după o breșă de date.

Cercetările care compară abordările hibride multilingve cu instrumentele centrate pe engleză au găsit rezultate clare. Metodele hibride ating scoruri F1 de 0,60 până la 0,83 în localizările europene. Instrumentele exclusiv în engleză obțin scoruri aproape de zero pentru formatele naționale de identificare non-engleze.

Consultați prezentarea generală a conformității GDPR pentru modul în care aceste decalaje se mapează la obligațiile GDPR.

Ce Necesită Acoperirea Completă

Detectarea adevărată multilingvă PII pentru conformitatea GDPR UE necesită trei niveluri.

Modele spaCy native pe limbă oferă înțelegere semantică în limba textului. Un model antrenat pe text german știe că „Müller” este un prenume german comun. Modelele există pentru 25 de limbi UE cu resurse ridicate.

Modelele NLP Stanza extind acoperirea la limbile care nu se află în spaCy. Aceasta adaugă acoperire pentru mai multe comunități lingvistice din UE.

Modelele transformatoare multilingve (XLM-RoBERTa) gestionează cazurile multilingve. Un nume într-o propoziție franceză este recunoscut ca nume de persoană. Aceasta funcționează chiar dacă motorul nu a fost antrenat pe acel anume nume.

Regex cu validare specifică fiecărei țări acoperă identificatorii naționali structurați. Steuer-ID, NIR, PESEL și Personnummer au fiecare nevoie de propria logică de sumă de control. Aceasta reduce falsele pozitive. Secvențele de cifre care nu trec regulile de validare ale țării sunt filtrate.

Decalajul este structural. Adăugarea de liste de cuvinte sau mai multe tipare regex oferă doar îmbunătățiri minore. Integrarea acoperirii identificatorilor UE de la bun început este singura abordare fiabilă.

Verificați Instrumentul Actual

Cereți furnizorului dvs. scoruri F1 pe înregistrări în germană, franceză, poloneză și olandeză. „Suportă mai multe limbi” înseamnă adesea că instrumentul folosește mai întâi traducerea. Aceasta nu este scanare nativă. Conformitatea GDPR necesită scanare nativă.

Testați cu exemple reale de acte naționale de identitate. Construiți un set de test scurt cu 10 exemple din fiecare tip de ID din operațiunile dvs. Steuer-ID, NIR, PESEL, Personnummer. Verificați ratele de detectare. Aceasta este mai rapidă decât un test F1 complet și arată rapid decalajele.

Consultați pagina noastră de securitate și conformitate pentru modul în care anonym.legal abordează aceste cerințe. Pentru definițiile tipurilor de entități, vizitați referința entităților.

Surse

Pregătit să vă protejați datele?

Începeți să anonimizati PII cu 285+ tipuri de entități în 48 de limbi.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.