anonym.legal
Πίσω στο BlogΤεχνικά

Έγγραφα Μικτής Γλώσσας DACH: Γερμανικό-Αγγλικό PII σε...

Τα έγγραφα DACH (Γερμανία, Αυστρία, Ελβετία) συχνά περιέχουν Steuer-ID, αγγλικές τεχνικές ορολογίες και γαλλικά για Ελβετία σε ένα έγγραφο.

March 26, 20267 λεπτά ανάγνωσης
mixed-language PII detectionSwiss GDPR compliancemultilingual document processingXLM-RoBERTaDACH data protection

Η Πρόκληση Εγγράφων Μικτής Γλώσσας

Ένα τυπικό έγγραφο εταιρείας DACH μπορεί να περιέχει:

  • Γερμανικά: βασικό κείμενο, νομικοί όροι, διευθύνσεις
  • Αγγλικά: τεχνική ορολογία, εμπορικές ονομασίες, ηλεκτρονικές διευθύνσεις
  • Ελβετικά γερμανικά: διαφορετική ορθογραφία (z αντί ss, χωρίς Umlaut)
  • Γαλλικά (Ελβετία): για πελάτες/εταίρους στη γαλλόφωνη Ελβετία

Αναγνωριστικά DACH: Περίπτωση Χρήσης

Γερμανία — Steuer-Identifikationsnummer:

  • Μορφή: 11 ψηφία, πρώτο ψηφίο 1-9
  • Επικύρωση: Modulo-11 αλγόριθμος

Αυστρία — Sozialversicherungsnummer:

  • Μορφή: 10 ψηφία (3 ψηφία + 6 ψηφία ημερομηνία + 1 checksum)

Ελβετία — AHV-Nummer/AVS:

  • Μορφή: 756.XXXX.XXXX.XX (13 ψηφία με τελεία)
  • 756 = κωδικός χώρας ISO Ελβετίας

Pipeline Multi-Locale

Βήμα 1: Εντοπισμός γλώσσας (langdetect ή FastText) Βήμα 2: Κατά τμήμα ανάλυση (κάθε paragraph → γλώσσα) Βήκα 3: Εφαρμογή σωστού NER μοντέλου ανά τμήμα Βήμα 4: Εφαρμογή σωστών recognizers αναγνωριστικών βάσει εντοπισμένης χώρας

Πηγές:

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.