Zurück zum BlogDSGVO & Compliance

Über SSNs und E-Mail-Adressen hinaus...

Jede Organisation hat interne Identifikatoren — Mitarbeiter-IDs, Kontonummern, Bestell-IDs — die im Kontext persönlich identifizierbar sind...

April 19, 20267 min Lesezeit
custom PII detectionorganizational identifiersre-identification riskGDPR pseudonymizationcustom entity

Über SSNs und E-Mail-Adressen hinaus: Anonymisierung der benutzerdefinierten Identifikatoren Ihrer Organisation

Ihr GDPR-Anonymisierungstool erkennt E-Mail-Adressen. Es erkennt Telefonnummern. Es erkennt Namen und Sozialversicherungsnummern. Sie führen Ihre Support-Ticket-Exporte durch, laden die anonymisierten Ausgaben herunter und teilen sie mit Ihrem Analyse-Team.

Ihre Kundennummern (im Format ACC-XXXXXXXX-XX) sind weiterhin in jedem Ticket enthalten. Ihre Bestell-IDs (ORD-XXXXXXX) sind nach wie vor vorhanden. Ihre internen Benutzer-IDs sind ebenfalls vorhanden.

Diese Identifikatoren sind isoliert pseudonym — sie identifizieren eine Person nicht direkt ohne Zugriff auf eine Nachschlagetabelle. Aber Ihr Analyse-Team hat Zugang zu dieser Nachschlagetabelle. Ihre Support-Datenbank hat sie. Ihr CRM hat sie. Der anonymisierte Export kann in Sekunden von jedem re-identifiziert werden, der Zugriff auf eines dieser Systeme hat.

Dies ist ein Versagen der GDPR-Pseudonymisierung — nicht weil das Tool standardmäßige PII übersehen hat, sondern weil es nicht über identifikatorspezifische Informationen Ihrer Organisation Bescheid wusste.

Was Standard-PII-Tools erkennen

Standard-PII-Erkennungstools — einschließlich der Basis-Konfigurationen von Microsoft Presidio — sind um universelle Identifikatorformate herum aufgebaut:

Was abgedeckt ist:

  • Sozialversicherungsnummern (US SSNs, UK NINOs, EU nationale ID-Formate)
  • E-Mail-Adressen (RFC 5322-Format)
  • Telefonnummern (E.164 und nationale Formate)
  • Kreditkartennummern (Luhn-Algorithmus-Validierung)
  • Namen (NER-Modellbasierte Erkennung)
  • Pass-/Führerscheinnummern (landesspezifische Formate)

Was nicht abgedeckt ist:

  • Ihr Mitarbeiter-ID-Format (EMP-XXXXX)
  • Ihr Kundenkontonummernformat (ACC-XXXXXXXX-XX)
  • Ihr Bestell-ID-Format (ORD-XXXXXXX)
  • Ihre interne Benutzer-ID (UUID oder benutzerdefiniertes Format)
  • Ihre internen Referenzcodes
  • Partner-spezifische Identifikatoren

Standardtools erkennen, was universell ist. Organisationsspezifische Identifikatoren sind definitionsgemäß nicht universell. Sie erfordern eine benutzerdefinierte Konfiguration.

Das Risiko der Re-Identifikation in der Praxis

Ein Finanzdienstleistungsunternehmen bearbeitet Support-Tickets zur Qualitätsanalyse. Ihr Standard-PII-Anonymisierungsworkflow entfernt:

  • Kundennamen ✓
  • E-Mail-Adressen ✓
  • Telefonnummern ✓
  • Kontonummern (Format ACC-XXXXXXXX-XX) ✗ — nicht erkannt

Der Ticket-Export geht an das Analyse-Team. Ein Datenanalyst verbindet die Ticket-Tabelle mit der Kundendatenbank anhand der Kontonummer. Die Re-Identifikation ist sofort und vollständig.

Dies erfordert keine ausgeklügelten Angriffstechniken. Es ist ein routinemäßiger SQL-Join, den jeder Analyst durchführen würde, um dem Support-Ticket-Analyse demografische Kontexte hinzuzufügen. Der "anonymisierte" Export war nicht anonym.

GDPR Artikel 4(5) definiert Pseudonymisierung als "Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten nicht mehr einem bestimmten Betroffenen zugeordnet werden können, ohne zusätzliche Informationen zu verwenden." Kontonummern bestehen diesen Test nicht, wenn die zusätzlichen Informationen (die Kundendatenbank) leicht verfügbar sind.

Erstellung benutzerdefinierter Entitätsmuster

Die Erstellung benutzerdefinierter Entitäten folgt einem einfachen Workflow für nicht-technische Compliance-Teams:

Schritt 1: Identifizieren Sie das Identifikatorformat Dokumentieren Sie Ihre organisationsspezifischen Identifikatoren und deren Formate:

  • Kundenkonto: ACC-XXXXXXXX-XX (ACC-Präfix, 8-stellige Zahl, 2-Zeichen-Suffix)
  • Bestell-ID: ORD-XXXXXXX (ORD-Präfix, 7-stellige Zahl)
  • Mitarbeiter-ID: EMP-XXXXX (EMP-Präfix, 5-stellige Zahl)
  • Interne Benutzer-ID: UUID-Format (8-4-4-4-12 hexadezimal)

Schritt 2: Generieren Sie das Erkennungsmuster Beschreiben Sie das Format in einfacher Sprache: "Kontonummern, die mit ACC beginnen, dann einen Bindestrich, dann 8 Ziffern, dann einen Bindestrich, dann 2 Großbuchstaben."

AI-unterstützte Mustererstellung produziert: ACC-d{8}-[A-Z]{2}

Schritt 3: Validieren Sie anhand von Beispieldaten Laden Sie 20-30 Dokumente mit dem Identifikator hoch. Überprüfen Sie:

  • Alle Instanzen werden erkannt (keine falschen Negativen)
  • Keine falschen Positiven (nicht Identifikator-Text wird fälschlicherweise markiert)

Schritt 4: Konfigurieren Sie die Anonymisierungsmethode Für Identifikatoren, die als Join-Schlüssel verwendet werden (Bestell-IDs, die in mehreren Systemen erscheinen und für die Analyse konsistent sein müssen):

  • Pseudonymisieren: Ersetzen Sie ACC-00123456-AB konsistent durch ACC-99876543-XY in allen Dokumenten. Der Austausch ist konsistent — der gleiche Input erzeugt immer den gleichen Output — sodass analytische Joins weiterhin funktionieren. Der ursprüngliche Wert ist ohne den Schlüssel nicht wiederherstellbar.

Für Identifikatoren, die für die Analyse nicht benötigt werden:

  • Schwärzen: Ersetzen durch [REDACTED]. Einfacher, irreversibel.

Schritt 5: Als Voreinstellung speichern Die benutzerdefinierte Entität (oder mehrere benutzerdefinierte Entitäten), die als Team-Voreinstellung gespeichert wird, wird konsistent über alle Verarbeitungen angewendet — Batch-Uploads, API-Aufrufe, Browser-Schnittstelle. Neue Teammitglieder erhalten automatisch die vollständige Konfiguration.

Fallstudie: 180.000 Support-Tickets

Ein Finanzdienstleistungsunternehmen hat Kundennummern (im Format ACC-XXXXXXXX-XX), die in historischen Support-Ticket-Exporte erscheinen. Standard-PII-Tools haben sie vollständig übersehen.

Identifizierte Lücke: Nach einer Compliance-Überprüfung stellte das Team fest, dass 180.000 historische Support-Tickets in ihrem Analyse-Data Warehouse ungeschwärzte Kontonummern neben (bereits anonymisierten) Namen und E-Mails enthielten.

Zeitplan zur Lösung:

  1. Compliance-Beauftragter definiert ACC-Muster (15 Minuten)
  2. Test gegen 30 Beispiel-Tickets (20 Minuten)
  3. Bestätigen der Mustergenauigkeit (10 Minuten)
  4. Verarbeiten von 180.000 Tickets in einer nächtlichen Batch
  5. Ersetzen der Warehouse-Tabellen durch re-anonymisierte Versionen

Gesamtzeit zur Schließung der Compliance-Lücke: 45 Minuten Zeit des Compliance-Beauftragten + nächtliche Batch. Ohne die Erstellung benutzerdefinierter Entitäten hätte dies ein Ingenieurticket, Entwicklungszeit, Codeüberprüfung und Bereitstellung erfordert — Wochen, nicht Stunden.

Über Support-Tickets hinaus: Wo benutzerdefinierte Identifikatoren erscheinen

Benutzerdefinierte organisatorische Identifikatoren verbreiten sich über mehr Dokumenttypen, als die meisten Compliance-Teams realisieren:

Interne Dokumente:

  • Besprechungsnotizen, die auf Kontonummern oder Bestell-IDs verweisen
  • E-Mail-Threads mit Kundenreferenzen
  • Präsentationen mit Fallstudien-Daten

Geteilt mit Dritten:

  • Berichte an Aufsichtsbehörden mit Fallreferenznummern
  • Daten, die mit Prüfern geteilt werden
  • Dokumente von Anbietern mit Kundenreferenzen

Forschung und Analyse:

  • Datensätze zur Analyse der Kundenreise
  • Datensätze zur Überprüfung der Supportqualität
  • Trainingsdaten für interne ML-Modelle

Jeder dieser Fälle erfordert die gleiche benutzerdefinierte Entitätskonfiguration, um wirklich anonyme Ausgaben zu erzeugen.

GDPR Pseudonymisierung vs. Anonymisierung: Der technische Unterschied

Die GDPR unterscheidet zwischen:

Pseudonymisierung: Daten, die mit Zugang zu zusätzlichen Informationen re-identifiziert werden können. Pseudonymisierte Daten sind weiterhin personenbezogene Daten gemäß der GDPR. Die Verordnung fördert die Pseudonymisierung als Risikominderungsmaßnahme, beseitigt jedoch nicht die Verpflichtungen der GDPR.

Anonymisierung: Daten, die vernünftigerweise nicht re-identifiziert werden können. Anonyme Daten sind keine personenbezogenen Daten und unterliegen nicht der GDPR.

Kontonummern, Bestell-IDs und Mitarbeiter-IDs sind pseudonym — nicht anonym — wenn Nachschlagetabellen existieren. Sie durch konsistente Pseudonyme zu ersetzen (Pseudonymisierung) verringert das Risiko, beseitigt jedoch nicht die Verpflichtungen der GDPR. Sie durch zufällige Tokens zu ersetzen (Anonymisierung durch Zerstörung des Schlüssels) beseitigt die Verpflichtungen der GDPR, unterbricht jedoch Joins.

Für die Weitergabe an Dritte, die keinen Zugang zu Ihren Nachschlagetabellen haben: Pseudonymisierung kann ausreichend sein (sie können ohne den Schlüssel nicht re-identifizieren). Für interne Analysen sind vollständige Anonymisierung oder Zugangskontrollen für den Schlüssel erforderlich.

Fazit

Die Lücke in der Standard-PII-Erkennung ist keine technische Einschränkung der Erkennungsalgorithmen — es ist eine Konfigurationslücke. Kein Erkennungstool kann das Kontonummernformat Ihrer Organisation kennen, es sei denn, Sie teilen es ihm mit.

Die Erstellung benutzerdefinierter Entitäten schließt diese Lücke in Stunden statt in Wochen. Compliance-Teams — ohne Ingenieurunterstützung — können organisationsspezifische Muster definieren, diese gegen Beispieldaten validieren und sie konsistent über alle Verarbeitungsmodi anwenden.

Die 180.000 ungeschwärzten Kontonummern, die in der Fallstudie entdeckt wurden, waren nicht aufgrund eines Tool-Fehlers vorhanden. Sie waren da, weil das Tool nie angewiesen wurde, nach ihnen zu suchen.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.