Zurück zum BlogDSGVO & Compliance

Was Presidio vermisst: Die 220+ Entitätstypen, die für die GDPR-konforme PII-Erkennung unerlässlich sind

Presidio wird mit ~40 Standard-Entitätserkennern ausgeliefert, die sich auf US-Identifikatoren konzentrieren. Europäische Organisationen benötigen IBAN, Codice Fiscale, Steueridentifikationsnummer, EU-Führerscheinformate und nationale Gesundheitsidentifikatoren — alles fehlt in den Standardangeboten von Presidio.

March 7, 20267 min Lesezeit
Presidio entity coverageEU GDPR PIIIBAN detectionEuropean identifiersPresidio vs managed

Was Presidio vermisst: Die 220+ Entitätstypen, die für die GDPR-konforme PII-Erkennung unerlässlich sind

Microsoft Presidio wird mit ungefähr 40 Standard-Entitätserkennern ausgeliefert. Für in den USA ansässige Bereitstellungen, die US-zentrierte Dokumente verarbeiten, deckt dies die wesentlichen Kategorien ab: SSNs, US-Pässe, US-Führerscheine, Kreditkarten, E-Mail-Adressen, Telefonnummern und Personennamen.

Für EU-Bereitstellungen ist die Deckungslücke erheblich. Die GDPR gilt für alle EU-Personendaten, unabhängig von der Nationalität. EU-Organisationen, die die Daten ihrer eigenen Bürger verarbeiten, benötigen Erkenner, die Presidio nicht standardmäßig bereitstellt.

Die Standard-Entitätsbibliothek von Presidio

Die Standard-Erkenner von Presidio umfassen:

US-zentrierte Identifikatoren:

  • US-Sozialversicherungsnummer (SSN)
  • US-Passnummer
  • US-Führerscheinnummer (verschiedene staatliche Formate)
  • US-Bankkontonummer
  • US-ITIN (Individual Taxpayer Identification Number)
  • US-Arztnummer

Universelle Identifikatoren:

  • E-Mail-Adresse
  • Telefonnummer (US-zentrierte Formatpriorität)
  • IP-Adresse
  • Kreditkartennummer (Luhn-Algorithmus)
  • Krypto-Wallet-Adresse
  • URL

Generische Textentitäten:

  • PERSON (NER-basiert)
  • LOCATION (NER-basiert)
  • ORGANIZATION (NER-basiert)
  • DATE_TIME (NER-basiert)

Begrenzte internationale Abdeckung:

  • UK NHS-Nummer
  • UK National Insurance Number (NINO)
  • Finanzentitätsidentifikatoren (einige)

Insgesamt: ~40 Erkenner

Was EU-Organisationen tatsächlich benötigen

Finanzielle Identifikatoren: IBAN (International Bank Account Number) erscheint in nahezu jedem EU-Geschäftsdokument, das Zahlungen, Überweisungen, Rechnungsstellung und Löhne betrifft. IBAN-Formate variieren je nach Land, folgen jedoch einem internationalen Standard (ISO 13616). Presidio hat keinen standardmäßigen IBAN-Erkenner.

Ein deutsches Fintech, das Kunden-Zahlungsunterlagen verarbeitet, verarbeitet IBAN-Nummern in jedem Transaktionsdokument. Ohne IBAN-Erkennung werden diese Dokumente mit aktiver Kreditkartenerkennung verarbeitet (Erkennung von Kartennummern), aber IBAN-Felder (der primäre EU-Zahlungsidentifikator) werden vollständig ignoriert.

Nationale Steueridentifikatoren:

  • Deutsche Steueridentifikationsnummer: 11-stellige numerische
  • Französische NIR (Numéro d'Inscription au Répertoire): 13-stellig alphanumerisch
  • Italienischer Codice Fiscale: 16-stellig alphanumerisch mit struktureller Validierung
  • Spanische NIF/NIE: 9-stellig mit Buchstabenpräfix/-suffix
  • Niederländische BSN: 9-stellig mit 11-Prüfvalidierung

Keiner dieser Identifikatoren befindet sich in der Standard-Entitätsbibliothek von Presidio. Ein EU-Lohnabrechnungsdienstleister, der Mitarbeiterdokumente aus mehreren Mitgliedstaaten verarbeitet, ist effektiv blind für ihre sensibelsten finanziellen Identifikatoren.

Nationale Gesundheitsidentifikatoren:

  • UK NHS-Nummer: 10-stellig mit Modulus-11-Prüfung
  • Französische Numéro de Sécurité Sociale (NIR): Dient auch als Gesundheits-ID
  • Deutsche Krankenkassennummer: Alphanumerisch, versichererspezifisch
  • Italienischer Codice Fiscale: Wird auch als Gesundheits-ID verwendet
  • Niederländische BSN: Wird ebenfalls für die Krankenversicherung verwendet

Gesundheitsorganisationen in der gesamten EU benötigen diese Identifikatoren für den Datenschutz von Gesundheitsdaten, der dem HIPAA-Standard entspricht. Presidio bietet die UK NHS-Nummer, verpasst jedoch die kontinentalen europäischen Gesundheits-IDs.

EU-Führerscheinformate: Presidio hat Erkenner für US-Führerscheine (staatspezifisch). EU-Führerscheinformate sind gemäß der Richtlinie 2006/126/EG standardisiert, variieren jedoch je nach Mitgliedstaat in ihrer alphanumerischen Struktur. Keine EU-Führerscheinerkenner in den Standardangeboten von Presidio.

USt-Identifikationsnummern: EU-USt-Nummern erscheinen in jeder Geschäftstransaktion zwischen Unternehmen. Format: Ländercode (2 Buchstaben) + 8-12 alphanumerische Ziffern. Presidio hat keinen USt-Identifikationsnummernerkenner. Für EU-Unternehmen, die Rechnungen, Verträge und Handelsdokumente austauschen, sind USt-Nummern Identifikatoren, die mit registrierten Geschäftseinheiten und deren Direktoren verknüpft sind.

EU-Passformate: US-Passanerkennung in Presidio, aber EU-Passformate (insbesondere das Format der maschinenlesbaren Zone) sind nicht abgedeckt.

Die Engineering-Kosten der Entwicklung benutzerdefinierter Erkenner

Wenn EU-Organisationen Presidio bereitstellen und die Deckungslücke bei den Entitäten entdecken, ist die Reaktion typischerweise die Entwicklung benutzerdefinierter Erkenner. Die Kosten:

Entwicklungszeit pro Erkenner:

  • Forschung zum Identifikatorformat: 1-2 Stunden
  • Schreiben der PatternRecognizer-Python-Klasse: 2-4 Stunden
  • Implementierung von Regex mit Validierungslogik: 2-4 Stunden
  • Konfiguration von Kontextwörtern zur Präzisionsverbesserung: 1-2 Stunden
  • Schreiben von Tests: 2-3 Stunden
  • Integration und Test in der Bereitstellung: 1-2 Stunden

Pro Erkenner: 9-17 Stunden.

Für ein deutsches Fintech, das IBAN + Steuer-ID + EU-Führerschein + deutsche USt-Identifikationsnummer + IBAN benötigt:

  • 4 benutzerdefinierte Erkenner × 13 Stunden im Durchschnitt = 52 Ingenieurstunden
  • Bei 100 €/Stunde: 5.200 € für die Entwicklung benutzerdefinierter Erkenner

Zusätzlich laufende Wartung, da sich Formate ändern, neue Testfälle auftauchen und Presidio-API-Updates Anpassungen der Erkenner erfordern.

Gesamtkosten für die EU-GDPR-Abdeckung zusätzlich zu Presidio: 5.200 €+ initial + laufende Wartung

Die Alternative: Verwaltete Entitätsbibliotheken

anonym.legal erweitert die Presidio-Grundlage mit über 285 Entitätstypen, die vom Entwicklungsteam gepflegt werden — einschließlich der spezifischen EU-Identifikatoren, die in den Standardangeboten von Presidio fehlen:

Deckungshöhe über die Standardangebote von Presidio hinaus:

  • IBAN (alle Formate der EU-Mitgliedstaaten)
  • Steueridentifikatoren der EU-Mitgliedstaaten (einschließlich Steuer-ID, NIR, Codice Fiscale, NIF/NIE, BSN, PESEL und andere)
  • Nationale Gesundheitsidentifikatoren der EU
  • USt-Nummern (EU-Format)
  • EU-Führerscheinformate
  • Europäische Passformate
  • Alle 48 unterstützten Sprachvariationen von Entitäten

Wartung: Updates der Entitätsbibliothek werden als Teil des verwalteten Dienstes bereitgestellt. Wenn Deutschland ein neues Steueridentifikatorformat einführt, erhalten die Benutzer den Erkenner, ohne einen Pull-Request einreichen zu müssen.

Benutzerdefinierte Erweiterung: Für organisationsspezifische Identifikatoren, die nicht in der Bibliothek enthalten sind, ermöglicht der benutzerdefinierte Entitätsbuilder das Hinzufügen von Mustern ohne Python-Code.

Das deutsche Fintech-Beispiel

Ein deutsches Fintech muss IBANs, BICs, deutsche Steuer-IDs (Steuer-ID) und deutsche Handelsregisternummern (Handelsregisternummer) in Kundendokumenten erkennen.

Standarderkennungsrate von Presidio für diese 4 Entitätstypen: 0%

Nicht niedrige Präzision, nicht falsch-positive — null Erkennungen. Keiner der 4 Entitätstypen erscheint in der Standard-Entitätsbibliothek von Presidio.

Schreiben benutzerdefinierter Erkenner: 4 Erkenner × 13 Stunden = 52 Stunden = 5.200 € zu Ingenieurpreisen.

Verwendung der verwalteten Entitätsbibliothek mit allen 4 abgedeckt: 180 €/Jahr (Professioneller Plan).

Kosten zur Erreichung einer GDPR-konformen Erkennung dieser deutschen finanziellen Identifikatoren:

  • Presidio-Route: 5.200 € Ingenieurkosten + Presidio-Betriebskosten
  • Verwaltete Dienstleistungsroute: 180 €/Jahr, die alle 4 sofort erkennen

Die Lücke beträgt im ersten Jahr 28-fach. Für jedes Betriebsjahr erhöht sich die Ingenieurzeit für die Wartung benutzerdefinierter Erkenner zu den Presidio-Kosten, während die Kosten des verwalteten Dienstes konstant bleiben.

Fazit

Die ~40 Standard-Erkenner von Presidio bedienen US-zentrierte Anwendungsfälle gut. Für EU-Bereitstellungen, die eine GDPR-Konformität über die spezifischen Identifikatoren der Mitgliedstaaten erfordern, ist die sofortige Abdeckung unzureichend. Die Lücke wird entweder durch die Entwicklung benutzerdefinierter Erkenner (teuer, zeitaufwendig) oder durch einen verwalteten Dienst, der die EU-Entitätsabdeckung als Teil des Abonnements aufrechterhält, geschlossen.

Für EU-Organisationen, bei denen die Einhaltung nicht verhandelbar ist und die Ingenieurressourcen begrenzt sind, beseitigt die vorgefertigte EU-Entitätsbibliothek des verwalteten Dienstes ein benutzerdefiniertes Entwicklungsprojekt von über 50 Stunden vor der Anonymisierung des ersten Dokuments.

Quellen:

Bereit, Ihre Daten zu schützen?

Beginnen Sie mit der Anonymisierung von PII mit über 285 Entitätstypen in 48 Sprachen.