Presidio EU-Entiteit Dektuk-Gaping: Waarom Standaard Konfigurasies GDPR-Identifiseerders Mis
Presidio se standaard NER-model word op Engelse data opgelei. Dit gee goed prestasie vir US-PII:
Wat dit goed kan:
- US SSN's (XXX-XX-XXXX)
- US ITIN (XX-XXXXXXX)
- US Driver's License nommers (varieert per staat)
- US Passport nommers
- Credit card nommers (Luhn algoritme)
Wat dit kan mis vir EU:
- UK NIN (National Insurance Number) — YY XXXXXX K
- Duitse Steuer-ID (Steuernummer) — XX XXX XXXXXX XX
- Hollandse BSN (Burgerservicenummer) — 9-digit nommer met modulo-97 kontrole
- Italiaanse Codice Fiscale — 16 karakters, sekondere opmaak
- Spaanse DNI (Documento Nacional de Identidad) — 8 getalle + 1 letters
Dit is 'n gaping in Presidio. Jy kan die standaard-konfigurasie nie gebruik vir EU GDPR-werk nie.
Oplossing: Voeg aangepaste herkenners bygevoeg:
from presidio_analyzer import RecognizerRegistry
# Bygevoeg UK NIN herkenner
registry.add_recognizer(UKNINRecognizer())
registry.add_recognizer(GermanTaxIDRecognizer())
registry.add_recognizer(DutchBSNRecognizer())
Met deze aangepaste herkenners sal jou Presidio nou EU-identifiseerders bespeur. Maar dit verg inlinietingwerk — jy kan nie die gratis, standaard-Presidio gebruik nie.