Pourquoi votre outil PII détecte les SSN mais manque...

Le RGPD s'applique aux Steuer-IDs allemands, NIR français, Personnummers suédois et plus de 260 autres types d'identifiants que la plupart des...

George CurtaApril 27, 20268 min de lecture

global PII coverageEU identifier detectionSteuer-ID French NIRBrazilian CPF285+ entity types GDPR

Données personnelles mondiales : SSN, CPF, Aadhaar et plus

Le problème des outils PII centrés sur les États-Unis

La plupart des outils PII ont été développés aux États-Unis. Ils ciblent les formats de données américains. Le numéro de sécurité sociale américain comporte neuf chiffres au format AAA-BB-CCCC. Ses segments de zone, de groupe et de série suivent des règles documentées. Les outils axés sur les États-Unis le détectent bien. Ils détectent aussi les numéros de téléphone, adresses e-mail et permis de conduire américains. Ils manquent chaque identifiant national utilisé hors des États-Unis.

Le RGPD n'autorise pas d'exemption pour les systèmes US-only. Prenons le Steuer-ID allemand. C'est un identifiant fiscal à 11 chiffres. Le Bundeszentralamt für Steuern le délivre. Son dernier chiffre est une somme de contrôle. Il identifie un résident allemand tout comme un SSN identifie un Américain. L'article 4 du RGPD couvre « toute information se rapportant à une personne physique identifiée ou identifiable. » Un Steuer-ID répond à cette définition. C'est une donnée personnelle. Cela est vrai que votre outil connaisse ou non ce format.

Des amendes RGPD ont été infligées pour l'exposition de données personnelles spécifiques à l'UE dans des systèmes n'utilisant que des outils américains. L'écart de conformité est réel. Des mesures coercitives ont suivi. Consultez notre guide de conformité RGPD pour plus de contexte.

Le paysage des identifiants européens

L'écart de couverture est important. Voici un aperçu par pays.

Allemagne : Steuer-ID — 11 chiffres, validé par somme de contrôle. Sozialversicherungsnummer — 12 champs, structuré. Reisepass — 10 caractères avec codes d'autorité.

France : Le NIR est l'identifiant national de sécurité sociale. Il comporte 15 chiffres. Ils encodent le sexe, l'année de naissance, le mois de naissance, le département, la commune et une clé de contrôle. Le SIRET a 14 chiffres. Le SIREN en a neuf.

Suède : Le Personnummer utilise le format AAMMJJ-XXXX. Le Samordningsnummer couvre les non-résidents. La valeur du jour est décalée de 60.

Norvège : Le Fødselsnummer comporte 11 valeurs au format JJMMAAXXXCC. Le sexe est encodé dans le groupe central. Le D-nummer décale la valeur du jour de 40.

Brésil : Le CPF — Cadastro de Pessoas Físicas — comporte 11 chiffres avec deux valeurs de contrôle. Le CNPJ est l'identifiant d'entreprise à 14 chiffres.

Inde : L'Aadhaar est un identifiant biométrique à 12 chiffres. Il utilise une vérification Verhoeff. Le PAN est un identifiant fiscal à 10 chiffres mêlant lettres et chiffres.

Émirats arabes unis : L'Emirates ID comporte 15 chiffres au format 784-année de naissance-séquence-contrôle.

Une équipe RH mondiale couvrant 12 pays a besoin d'un seul outil. Il doit traiter les 12 formats d'identifiants nationaux en un seul passage. Maintenir des bibliothèques regex séparées par pays n'est pas viable.

L'architecture des 285+ types d'entités

La bibliothèque de 285+ types d'entités couvre tous les formats des États membres de l'UE. Elle couvre aussi les principaux identifiants APAC. Ceux-ci incluent Aadhaar, PAN, CPF, CNPJ, Emirates ID et l'identifiant thaïlandais. Les formats américains — SSN, EIN, permis de conduire par État — sont également inclus. Un seul moteur les gère tous. La bibliothèque est mise à jour au fur et à mesure que les formats évoluent.

C'est l'écart que la plupart des outils laissent ouvert. Consultez la référence des entités pour voir ce qui est couvert. Pour les tarifs API par volume, visitez tarification.

Sources

Prêt à protéger vos données ?

Commencez à anonymiser les PII avec plus de 285 types d'entités dans 48 langues.

Commencer l'essai gratuit Voir les fonctionnalités

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

We follow these rules

GDPR (EU 2016/679).
ISO/IEC 27001:2022.
NIS2 (EU 2022/2555).
HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our company HQ is in Saarbrücken, Germany. Our servers run in Hetzner's Falkenstein datacenter.

Hetzner holds ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

We never sell your information to third parties.
We never train models on what you upload.
We never keep your work after you delete it.
We never share keys with any outside firm.
We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.

Pourquoi votre outil PII détecte les SSN mais manque...

Données personnelles mondiales : SSN, CPF, Aadhaar et plus

Le problème des outils PII centrés sur les États-Unis

Le paysage des identifiants européens

L'architecture des 285+ types d'entités

Sources

Articles connexes

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Prêt à protéger vos données ?

Pourquoi votre outil PII détecte les SSN mais manque...

Données personnelles mondiales : SSN, CPF, Aadhaar et plus

Le problème des outils PII centrés sur les États-Unis

Le paysage des identifiants européens

L'architecture des 285+ types d'entités

Sources

Articles connexes

Self-Hosted PII Fails Compliance Audits

Presidio Misses 220+ GDPR Entities

Configuration Drift: A Hidden GDPR Risk

Prêt à protéger vos données ?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow