Meertalige PII-detectie voor GDPR
Bijgewerkt voor 2026
De Verborgen GDPR-kloof
GDPR heeft geen taalvoorkeur. Artikel 4(1) definieert "persoonsgegevens" zonder de taal te specificeren. Een Duits Steuer-ID is net zo beschermd als een Amerikaans Social Security Number. Een Frans NIR is net zo gereguleerd als een Brits National Insurance-nummer.
De meeste PII-detectietools zijn alleen voor het Engels gebouwd.
Onderzoek van ACL 2024 vond dat hybride NLP-tools F1-scores van 0,60-0,83 bereiken voor Europese locales. Alleen-Engelse tools scoren dicht bij nul voor niet-Engelse nationale ID-formaten. De kloof is opvallend. Een tool kan 95% van de Engelse PII oppakken, maar 40-60% van de Duitse, Franse, Poolse of Nederlandse PII in hetzelfde bestand missen.
Dat is een ernstig probleem. Het laat bedrijven blootgesteld.
Specifieke EU-identifiers die Tools Missen
Duitsland — Steueridentifikationsnummer: 11-cijferig belasting-ID met moduluscontrole. Vereist specifieke patroonherkenning die afwijkt van Amerikaanse SSN-logica.
Frankrijk — NIR (Numéro d'Inscription au Répertoire): 15-cijferig nummer dat geslacht, geboortejaar, departement en registratienummer codeert.
Zweden — Personnummer: 10-12 cijfers met Luhn-checksum. Samordningsnummer (coördinatienummer) vereist aparte detectielogica.
Polen — PESEL: 11 cijfers met gewogen checksum. 89% van geïmplementeerde tools detecteert dit niet correct.
Nederland — BSN: 9 cijfers met elfproef-validatie. Vereist modulus-11-controle.
Waarom Engels-Only Tools Tekortschieten
Presidio — het meest gebruikte open-source PII-detectiesysteem — levert standaard ~40 entiteitsherkenners gebaseerd op Amerikaanse identifiers. Europese organisaties die Presidio inzetten voor GDPR-naleving missen mogelijk meer dan 220 Europese entiteitstypen.
Het probleem is niet alleen missende regex-patronen. Het gaat ook om modeltraining. NER-modellen getraind op Engelse tekst leren entiteitspatronen die specifiek zijn voor de Engelse taal. Ze herkennen geen namen of entiteiten in andere talen met vergelijkbare nauwkeurigheid.
Bekijk de entiteitsdetectiepagina voor een volledige lijst van ondersteunde talen en identifiertypes.