Warum Regex, nicht KI?

Für die Einhaltung von Vorschriften benötigen Sie Ergebnisse, die Sie erklären und reproduzieren können. Unser deterministischer Ansatz liefert genau das – keine Black Boxes, keine Überraschungen.

Detaillierter Vergleich

We use the best tool for each job: deterministic regex patterns for structured data, and proven ML models for names and entities. Built on Microsoft Presidio.

Entity TypeDetection MethodExamples
Strukturierte Daten
Regex-Muster
E-Mails, SSNs, Kreditkarten, IBANs, Telefonnummern
Namen & Organisationen
ML-Modelle (spaCy, Stanza)
Personennamen, Firmennamen, Standorte
48 Sprachen
XLM-RoBERTa
Cross-linguale Entitätserkennung
Reproduzierbarkeit
100% reproduzierbar
Gleicher Input = gleicher Output, jedes Mal
Namensdetektion
Hohe Genauigkeit ML
Bewährte NLP-Modelle mit Vertrauenswerten
Prüfbarkeit
+Vollständig prüfbar
Position, Typ, Vertrauen für jede Entität

Wie Mustererkennung funktioniert

Jeder Entitätstyp hat sorgfältig ausgearbeitete Regex-Muster, die spezifische Formate erkennen.

E-Mail-Adressen

[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

Erkennt das Standard-E-Mail-Format: lokal-part@domain.tld

Kreditkartennummern

\b(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|...)\b

Erkennt Visa, Mastercard, Amex und andere Kartenformate mit Luhn-Validierung

Deutsche IBAN

DE[0-9]{2}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{2}

Erkennt das deutsche IBAN-Format mit optionalen Leerzeichen

Für die Einhaltung entwickelt

Wenn Prüfer fragen "Warum wurde dies erkannt?" benötigen Sie eine klare Antwort. Unser regex-basierter Ansatz bietet genau das.

  • GDPR Artikel 25: Datenschutz durch Technikgestaltung mit erklärbarer Verarbeitung
  • ISO 27001: Dokumentierte, wiederholbare Prozesse
  • Prüfpfad: Jede Erkennung kann auf ein spezifisches Muster zurückverfolgt werden

Beispiel für eine Prüfantwort

F: Warum wurde "john.smith@company.com" markiert?
A: Entsprach dem E-Mail-Muster an Position 45-68 mit einer Vertrauensbewertung von 0.95. Muster: Validierung des Standard-E-Mail-Formats.

Erleben Sie deterministische Erkennung

Testen Sie unsere regex-basierte PII-Erkennung kostenlos mit 200 Tokens pro Zyklus.