anonym.legal
Terug naar BlogGDPR & Naleving

Waarom uw PII-detectietool alleen GDPR-conform is...

Een Duitse Steuer-ID (11 cijfers met controlegetal) verschilt structureel van een Amerikaanse SSN. Franse NIR-nummers hebben 15 cijfers.

March 20, 20268 min lezen
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

GDPR heeft geen taalvoorkeur

De Algemene Verordening Gegevensbescherming is van toepassing op persoonlijke gegevens in het Duits, Frans, Pools, Zweeds, Spaans, Italiaans en alle andere talen die worden verwerkt door organisaties die onder de Verordening vallen. Een gemiste identificator in Duitse klantgegevens creëert dezelfde regelgevende blootstelling als een gemiste identificator in Engelse klantgegevens. De GDPR maakt geen onderscheid op basis van taal.

De meeste PII-detectietools doen dat wel.

De dominante commerciële en open-source PII-detectietools zijn voornamelijk gebouwd en getest op Engelse tekst. Hun entiteitsherkenners weerspiegelen dit: Amerikaanse sociale zekerheidsnummers, Amerikaanse rijbewijzen, Amerikaanse paspoortformaten en veelvoorkomende universele identificatoren (e-mailadressen, telefoonnummers in NANP-formaat, creditcardnummers). De herkenners voor niet-Engelse nationale identificatoren — wanneer ze bestaan — zijn vaak minder nauwkeurig, minder goed onderhouden en hebben een grotere kans op valse negatieven.

Voor ondernemingen die opereren in EU-lidstaten creëert dit een systematische compliance-kloof: de tool rapporteert dat PII is gedetecteerd en verwijderd, maar de niet-Engelse identificatoren die de grootste GDPR-blootstelling in bepaalde jurisdicties vertegenwoordigen, blijven in de gegevens.

Het structurele verschil tussen nationale identificatoren

De kloof tussen Engelse-gecentreerde tools en echt meertalige tools is geen kwestie van het toevoegen van meer regex-patronen. Nationale identificatorformaten in de EU-lidstaten zijn structureel verschillend op manieren die specifieke kennis van de jurisdictie vereisen om correct te detecteren.

Duitse Steuer-Identifikationsnummer (Steuer-ID): 11-cijferige belastingidentificator met een specifiek controlegetal-algoritme gebaseerd op de Luhn-formulevariant. Een generieke SSN-regex zal niet overeenkomen met dit formaat. Een regex die overeenkomt met elk 11-cijferig getal zal enorme valse positieven opleveren in Duitse financiële documenten.

Franse NIR (Numéro d'inscription au répertoire): 15-cijferige identificator die het geslacht van de houder, geboortejaar, geboortemaand, geboorteafdeling of landcode, geboortevervolgnummer en een 2-cijferige controlecode omvat. Detectie vereist begrip van de structuur en validatie van de controlecode.

Zweedse Personnummer: 10-cijferige identificator (soms met eeuwindicator waardoor het 12 cijfers zijn) met een Luhn-controlecijfer. Het formaat varieert afhankelijk van de leeftijd: individuen geboren voor 1990 gebruiken een + scheidingsteken in plaats van -, wat het formaat verandert dat moet worden gedetecteerd.

Poolse PESEL: 11-cijferige identificator die geboortedatum, geslacht en een controlecijfer op basis van een gewogen som-algoritme encodeert. Correcte detectie vereist zowel formaatovereenstemming als controlegetalvalidatie.

Dit zijn geen formatvariaties op een gemeenschappelijk patroon. Het zijn structureel verschillende identificatoren met verschillende lengtes, verschillende validatie-algoritmen en verschillende positionele coderingsschema's. Een Engelstalig getraind NER-model dat een Franse NIR in tekst tegenkomt, zal het niet herkennen als een nationale identificator — het zal het ofwel negeren of, als het overeenkomt met een ander patroon, verkeerd classificeren.

De praktische compliance-gevolgen

Voor een compliance-officer bij een Europese BPO die klantgegevens uit Duitsland, Frankrijk, Polen en Nederland tegelijkertijd verwerkt, is de praktische consequentie een systematische detectiekloof in niet-Engelse klantrecords.

De tool van de compliance-officer rapporteert succesvolle PII-anonimisering. De geanonimiseerde gegevens bevatten nog steeds Steuer-IDs in Duitse records, NIR-nummers in Franse records en PESEL-nummers in Poolse records — omdat de herkenners van de tool voor deze formaten ofwel afwezig zijn of onvoldoende nauwkeurig.

Wanneer de geanonimiseerde dataset later wordt gebruikt voor analyses, testen of gedeeld met een onderzoekspartner, bevatten de "geanonimiseerde" gegevens nog steeds re-identificeerbare nationale identificatiedata. De GDPR-overtreding is niet zichtbaar in de outputlogs van de tool. Het wordt zichtbaar wanneer een verzoek om toegang door een betrokkene, een audit door een toezichthoudende autoriteit of een datalek onthult dat niet-Engelse identificatoren niet zijn verwijderd.

Onderzoek dat hybride meertalige PII-detectiebenaderingen vergelijkt met eentalige Engelse-gecentreerde tools, heeft aangetoond dat hybride benaderingen F1-scores van 0,60 tot 0,83 behalen in Europese locaties — vergeleken met bijna nul prestaties van alleen Engelse tools die worden toegepast op niet-Engelse identificatorformaten.

Wat uitgebreide dekking vereist

Echte meertalige PII-detectie voor EU GDPR-compliance vereist drie architectonische lagen die in combinatie werken:

Taal-native spaCy-modellen bieden semantisch begrip van namen, organisaties en locaties in de taal van de tekst. Een spaCy-model dat is getraind op Duitse tekst begrijpt dat "Müller" een veelvoorkomende achternaam is in de Duitse context — niet alleen een gecapitaliseerd woord. Modellen bestaan voor 25 hoog-resource EU-talen.

Stanza NLP-modellen breiden de dekking uit naar aanvullende talen die niet door spaCy worden gedekt op hetzelfde nauwkeurigheidsniveau.

Cross-linguale transformer-modellen (XLM-RoBERTa) behandelen de cross-taalambiguïteit die pure patroonherkenning niet kan aanpakken — ze herkennen dat een naam die in een Franse zin verschijnt een persoonsnaam is, zelfs als de detectiemachine niet specifiek op die naam is getraind.

Regex met jurisdictie-specifieke validatie dekt gestructureerde nationale identificatoren — Steuer-ID, NIR, PESEL, Personnummer — met controlegetalvalidatie die valse positieven elimineert.

Voor de compliance-officer wiens tool momenteel niet-Engelse identificatoren mist: de kloof is structureel, niet configuratie. Het toevoegen van woordenlijsten of het uitbreiden van regex-dekking biedt marginale verbetering. Uitgebreide EU GDPR-compliance voor meertalige gegevens vereist een tool die is gebouwd met EU-identificatiedekking als ontwerpeis, niet als bijzaak.

Bronnen:

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.