Η Πρόκληση Εγγράφων Μικτής Γλώσσας
Ένα τυπικό έγγραφο εταιρείας DACH μπορεί να περιέχει:
- Γερμανικά: βασικό κείμενο, νομικοί όροι, διευθύνσεις
- Αγγλικά: τεχνική ορολογία, εμπορικές ονομασίες, ηλεκτρονικές διευθύνσεις
- Ελβετικά γερμανικά: διαφορετική ορθογραφία (z αντί ss, χωρίς Umlaut)
- Γαλλικά (Ελβετία): για πελάτες/εταίρους στη γαλλόφωνη Ελβετία
Αναγνωριστικά DACH: Περίπτωση Χρήσης
Γερμανία — Steuer-Identifikationsnummer:
- Μορφή: 11 ψηφία, πρώτο ψηφίο 1-9
- Επικύρωση: Modulo-11 αλγόριθμος
Αυστρία — Sozialversicherungsnummer:
- Μορφή: 10 ψηφία (3 ψηφία + 6 ψηφία ημερομηνία + 1 checksum)
Ελβετία — AHV-Nummer/AVS:
- Μορφή: 756.XXXX.XXXX.XX (13 ψηφία με τελεία)
- 756 = κωδικός χώρας ISO Ελβετίας
Pipeline Multi-Locale
Βήμα 1: Εντοπισμός γλώσσας (langdetect ή FastText) Βήμα 2: Κατά τμήμα ανάλυση (κάθε paragraph → γλώσσα) Βήκα 3: Εφαρμογή σωστού NER μοντέλου ανά τμήμα Βήμα 4: Εφαρμογή σωστών recognizers αναγνωριστικών βάσει εντοπισμένης χώρας
Πηγές: