Zurück zum BlogDSGVO & Compliance

Deutschsprachige PII-Erkennung: Warum die DSGVO-Konformität Unterstützung für native deutsche Identifikatoren erfordert

Der BfDI meldete 27.829 Verletzungsbenachrichtigungen im Jahr 2024 — ein Rekord für Deutschland. 65 % der deutschen Unternehmen verwenden Tools mit unzureichender Unterstützung für deutsche PII. Steuer-ID, Personalausweis und DACH-Multi-Regime-Konformität.

March 7, 20269 min Lesezeit
Germany BfDIDACH complianceSteuer-ID detectionGerman language PIIDSGVO technical

Deutschland meldete 27.829 Verletzungsbenachrichtigungen zum Datenschutz an den Bundesbeauftragten für den Datenschutz und die Informationsfreiheit (BfDI) und 16 Landesdatenschutzbehörden im Jahr 2024 — ein neuer Rekord und 31 % aller EU-DSGVO-Verletzungsbenachrichtigungen. Das Ausmaß der Verletzungsberichterstattung in Deutschland spiegelt sowohl die Dichte der Durchsetzung als auch eine systemische technische Lücke wider: 65 % der deutschen Unternehmen verwenden englischsprachige PII-Erkennungstools mit unzureichender Unterstützung der deutschen Sprache.

Deutschlands dreischichtige Durchsetzungsstruktur

Die Durchsetzung der DSGVO in Deutschland ist einzigartig komplex, da die Durchsetzung auf 17 Behörden verteilt ist:

BfDI (Bundesbeauftragter): Zuständigkeit über Bundesbehörden, Telekommunikation, Postdienste und Organisationen mit bundesstaatlichen Operationen.

16 Landesdatenschutzbehörden (Landes-DPAs): Jeder deutsche Bundesstaat hat seine eigene DPA mit unabhängiger Durchsetzungsbehörde für Organisationen in diesem Bundesstaat. Die aktivsten Landes-DPAs:

  • Bayern: Bayerisches Landesamt für Datenschutzaufsicht (BayLDA) — eine der technisch anspruchsvollsten DPAs der EU
  • Hamburg: Der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit — pionierte die Durchsetzung gegen US-Plattformbetreiber
  • Baden-Württemberg: Der Landesbeauftragte für den Datenschutz und die Informationsfreiheit (LfDI BW) — gab die erste KI-spezifische DSGVO-Leitlinie in Deutschland heraus

Diese dreischichtige Struktur bedeutet, dass deutsche Organisationen gleichzeitig mit Durchsetzungsmaßnahmen auf Bundes- und Landesebene konfrontiert sind. BayLDA prüfte 250+ Organisationen im Jahr 2024 und versendete Datenschutzfragebögen, die dokumentierte technische Maßnahmebeschreibungen erforderten.

Die DACH-Komplexität: Drei Regime, eine Sprache

Deutschsprachige Organisationen in der DACH-Region (Deutschland, Österreich, Schweiz) arbeiten unter drei unterschiedlichen regulatorischen Rahmenbedingungen mit unterschiedlichen technischen Anforderungen:

Deutschland: EU-DSGVO + BfDI/Landesdatenschutzbehörden-Durchsetzung. Deutschland-spezifische Identifikatoren: Steueridentifikationsnummer (11 Ziffern), Personalausweis (10 Zeichen), IBAN/DE-Format.

Österreich: EU-DSGVO + DSB-Durchsetzung. Österreichische Identifikatoren: Sozialversicherungsnummer (SVNR, 10 Ziffern), eAT (elektronische Aufenthaltsgenehmigung), FinanzOnline-Nummer.

Schweiz: revDSG (neues Schweizer Bundesgesetz über den Datenschutz, gültig ab September 2023) — nicht EU-DSGVO, aber eng modelliert. Schweizer Identifikatoren: AHV-Nummer (13 Ziffern, Format 756.XXXX.XXXX.XX), UID (Unternehmensidentifikation).

Organisationen, die in allen drei DACH-Ländern tätig sind, benötigen ein PII-Tool, das deutschsprachigen Text und alle drei nationalen Identifikatoren der Länder verarbeitet — plus das Liechtensteiner DSG (ein viertes geringfügiges Regime für das kleine Fürstentum zwischen der Schweiz und Österreich).

Deutsche nationale Identifikatoren

Steueridentifikationsnummer (Steuer-ID): 11-stellige permanente Steueridentifikationsnummer, die allen deutschen Einwohnern ab Geburt zugewiesen wird. Format: nicht-null erste Ziffer + 10 weitere Ziffern + Prüfziffer (unter Verwendung eines modularen Algorithmus). Erscheint in allen deutschen Steuer-, Beschäftigungs- und Finanzdokumenten.

Personalausweisnummer: Deutsche nationale Personalausweisnummer im Format LNNNNNNNC (1 Buchstabe + 8 Ziffern + 1 Prüfzeichen). Das Prüfzeichen wird mit einem gewichteten Summenalgorithmus berechnet. Jeder deutsche Staatsbürger und EU-Bewohner in Deutschland hat eine Personalausweisnummer.

Sozialversicherungsnummer (SV-Nummer): Format: NNDDMMYYAAAA (2-stellige Vorwahl + Geburtsdatum DDMMYY + 2-Buchstaben-Initiale + Prüfziffer). Wird in Beschäftigungs- und Rentenunterlagen verwendet.

Deutsche IBAN: Format DE + 2 Prüfziffern + 8-stellige Bankleitzahl (Bankleitzahl, BLZ) + 10-stellige Kontonummer. Die IBAN-Validierung unter Verwendung von mod-97-Prüfziffern ist Standard, aber das deutsche spezifische Bankcodeformat erfordert zusätzliche Validierung.

Krankenversicherungsnummer (KVNr): 10-stellige Krankenversicherungsnummer (1 Buchstabe + 9 Ziffern). Der Buchstabe identifiziert den Versicherer; die Ziffern enthalten eine Prüfziffer.

Die 65%-Tool-Lücke

Die Umfrage des BfDI 2024 ergab, dass 65 % der deutschen Unternehmen PII-Tools mit unzureichender Unterstützung der deutschen Sprache verwenden. Die spezifischen dokumentierten Mängel:

Steuer-ID-Erkennung: Musterabgleich ohne Prüfziffervalidierung, was zu falsch positiven Ergebnissen aus jeder 11-stelligen Zahlenfolge in deutschen Dokumenten führt.

Personalausweis-Erkennung: Verpasst, wenn das Format ohne explizites "Personalausweis"-Label in Dokumenten erscheint — kontextuelle Erkennung erfordert deutsche NER, um den Dokumenttyp zu identifizieren.

Deutsche Namenskennung: NLP-Modelle, die auf englischem Text trainiert sind, erkennen deutsche Namen nicht, insbesondere zusammengesetzte Namen (Hans-Wilhelm, Anna-Katharina) und deutsch-spezifische Umlaute (Müller, Schröder, Böhm).

Deutsche Adressformate: Deutsche Adressen (Straße, Platz, Weg, Gasse) unterscheiden sich von englischen Adressstrukturen. Modelle, die deutsche Adressen mit englischsprachigen Parsern analysieren, produzieren systematische Fehler.

Für die Einhaltung der technischen Anforderungen des BfDI, der BayLDA und anderer deutscher DPAs lautet der Standard: Deutsche NER (spaCy de_core_news oder gleichwertig), Steuer-ID- und Personalausweis-Erkennung mit Prüfziffervalidierung, SVNR-Unterstützung für österreichische Dokumente und AHV-Nummer-Unterstützung für Schweizer Dokumente.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.