Zurück zum BlogDSGVO & Compliance

Warum Ihr PII-Erkennungstool Nur für...

Eine deutsche Steuer-ID (11 Ziffern mit Prüfziffer) unterscheidet sich strukturell von einer US-SSN. Französische NIR-Nummern haben 15 Ziffern.

March 20, 20268 min Lesezeit
GDPR multilingual complianceSteuer-ID detectionFrench NIRSwedish PersonnummerEU PII identifier formats

GDPR Hat Keine Sprachpräferenz

Die Datenschutz-Grundverordnung gilt gleichermaßen für personenbezogene Daten in Deutsch, Französisch, Polnisch, Schwedisch, Spanisch, Italienisch und allen anderen Sprachen, die von Organisationen verarbeitet werden, die der Verordnung unterliegen. Ein übersehener Identifikator in deutschen Kundendaten schafft die gleiche regulatorische Exposition wie ein übersehener Identifikator in englischen Kundendaten. Die GDPR unterscheidet nicht nach Sprache.

Die meisten PII-Erkennungstools tun dies jedoch.

Die dominierenden kommerziellen und Open-Source-PII-Erkennungstools wurden hauptsächlich auf englischem Text entwickelt und getestet. Ihre Entitäts-Recognizer spiegeln dies wider: US-Sozialversicherungsnummern, US-Führerscheine, US-Reisepassformate und gängige universelle Identifikatoren (E-Mail-Adressen, Telefonnummern im NANP-Format, Kreditkartennummern). Die Erkenner für nicht-englische nationale Identifikatoren — wenn sie existieren — sind häufig weniger genau, weniger gepflegt und wahrscheinlicher, falsche Negative zu produzieren.

Für Unternehmen, die in den EU-Mitgliedstaaten tätig sind, schafft dies eine systematische Compliance-Lücke: Das Tool meldet, dass PII erkannt und entfernt wurde, aber die nicht-englischen Identifikatoren, die die größte GDPR-Exposition in bestimmten Jurisdiktionen darstellen, bleiben in den Daten.

Der Strukturelle Unterschied Zwischen Nationalen Identifikatoren

Die Lücke zwischen englischzentrierten Tools und wirklich mehrsprachigen Tools ist kein Problem des Hinzufügens weiterer Regex-Muster. Nationale Identifikatorformate in den EU-Mitgliedstaaten sind strukturell unterschiedlich in einer Weise, die spezifisches Wissen über die Jurisdiktion erfordert, um sie korrekt zu erkennen.

Deutsche Steuer-Identifikationsnummer (Steuer-ID): 11-stelliger Steueridentifikator mit einem spezifischen Prüfziffernalgorithmus basierend auf der Luhn-Formelvariante. Ein generisches SSN-Regex wird dieses Format nicht erkennen. Ein Regex, das jede 11-stellige Zahl erkennt, wird enorme falsch-positive Raten in deutschen Finanzdokumenten erzeugen.

Französisches NIR (Numéro d'inscription au répertoire): 15-stelliger Identifikator, der das Geschlecht, das Geburtsjahr, den Geburtsmonat, den Geburtsdepartement- oder Ländercode, die Geburtsreihenfolge und einen 2-stelligen Kontrollschlüssel enthält. Die Erkennung erfordert ein Verständnis der Struktur und die Validierung des Kontrollschlüssels.

Schwedische Personnummer: 10-stelliger Identifikator (manchmal mit Jahrhundertindikator, was ihn auf 12 Ziffern bringt) mit einer Luhn-Prüfziffer. Das Format variiert je nach Alter: Personen, die vor 1990 geboren wurden, verwenden einen + Separator anstelle von -, was das zu erkennende Format ändert.

Polnische PESEL: 11-stelliger Identifikator, der Geburtsdatum, Geschlecht und eine Prüfziffer basierend auf einem gewichteten Summenalgorithmus kodiert. Die korrekte Erkennung erfordert sowohl Formatabgleich als auch Prüfziffervalidierung.

Dies sind keine Formatvariationen eines gemeinsamen Musters. Es handelt sich um strukturell unterschiedliche Identifikatoren mit unterschiedlichen Längen, unterschiedlichen Validierungsalgorithmen und unterschiedlichen Positionskodierungsschemata. Ein auf Englisch trainiertes NER-Modell, das auf einen französischen NIR in einem Text trifft, wird ihn nicht als nationalen Identifikator erkennen — es wird ihn entweder ignorieren oder, wenn er einem anderen Muster entspricht, falsch klassifizieren.

Die Praktische Compliance-Folge

Für einen Compliance-Beauftragten bei einem europäischen BPO, der gleichzeitig Kundendienstdaten aus Deutschland, Frankreich, Polen und den Niederlanden verarbeitet, ist die praktische Folge eine systematische Erkennungslücke in nicht-englischen Kundenaufzeichnungen.

Das Tool des Compliance-Beauftragten meldet eine erfolgreiche PII-Anonymisierung. Die anonymisierten Daten enthalten weiterhin Steuer-IDs in deutschen Aufzeichnungen, NIR-Nummern in französischen Aufzeichnungen und PESEL-Nummern in polnischen Aufzeichnungen — weil die Erkenner des Tools für diese Formate entweder fehlen oder unzureichend genau sind.

Wenn der anonymisierte Datensatz später für Analysen, Tests oder den Austausch mit einem Forschungspartner verwendet wird, enthält die "anonymisierte" Daten weiterhin re-identifizierbare nationale Identifikator-Daten. Der GDPR-Verstoß ist in den Ausgabelogs des Tools nicht sichtbar. Er wird sichtbar, wenn eine Anfrage zur Datenzugriffsanforderung, eine Prüfung durch die Aufsichtsbehörde oder ein Datenleck offenbart, dass nicht-englische Identifikatoren nicht entfernt wurden.

Forschungen, die hybride mehrsprachige PII-Erkennungsansätze mit einsprachigen, englischzentrierten Tools verglichen haben, ergaben, dass hybride Ansätze F1-Werte von 0,60 bis 0,83 über europäische Standorte erzielen — im Vergleich zu nahezu null Leistung von ausschließlich auf Englisch angewendeten Tools auf nicht-englische Identifikatorformate.

Was Umfassende Abdeckung Erfordert

Echte mehrsprachige PII-Erkennung für die EU-GDPR-Compliance erfordert drei architektonische Schichten, die in Kombination arbeiten:

Sprache-native spaCy-Modelle bieten semantisches Verständnis von Namen, Organisationen und Orten in der Sprache des Textes. Ein auf deutschem Text trainiertes spaCy-Modell versteht, dass "Müller" ein häufiger Nachname im deutschen Kontext ist — nicht nur ein großgeschriebenes Wort. Modelle existieren für 25 hochressourcierte EU-Sprachen.

Stanza NLP-Modelle erweitern die Abdeckung auf zusätzliche Sprachen, die von spaCy nicht auf demselben Genauigkeitsniveau abgedeckt werden.

Cross-linguale Transformator-Modelle (XLM-RoBERTa) behandeln die sprachübergreifende Mehrdeutigkeit, die reines Musterabgleich nicht adressieren kann — sie erkennen, dass ein Name, der in einem französischen Satz erscheint, ein Personenname ist, auch wenn die Erkennungsengine nicht speziell auf diesen Namen trainiert wurde.

Regex mit jurisdiktionsspezifischer Validierung deckt strukturierte nationale Identifikatoren — Steuer-ID, NIR, PESEL, Personnummer — mit einer Prüfziffernvalidierung ab, die falsch-positive Ergebnisse eliminiert.

Für den Compliance-Beauftragten, dessen Tool derzeit nicht-englische Identifikatoren übersieht: Die Lücke ist strukturell, nicht konfigurationsbedingt. Das Hinzufügen von Wortlisten oder die Erweiterung der Regex-Abdeckung bietet marginale Verbesserungen. Umfassende EU-GDPR-Compliance für mehrsprachige Daten erfordert ein Tool, das mit EU-Identifikatorabdeckung als Designanforderung, nicht als nachträglicher Gedanke, entwickelt wurde.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.