Ουγγρικοί Αναγνωριστές: Βαθύτερη Τεχνική Κατανόηση
TAJ-szám (Társadalombiztosítási Azonosító Jel):
- Μορφή: XXX-XXX-XXX (9 ψηφία με παύλες)
- Ψηφίο ελέγχου: Σταθμισμένο άθροισμα modulo 10 με συντελεστές [3, 7, 1, 3, 7, 1, 3, 7]
- Κωδικοποίηση: Τα ψηφία 1-6 κωδικοποιούν ημερομηνία γέννησης ΚΑΙ φύλο — καθιστώντας το ειδικής κατηγορίας δεδομένα (φύλο) κατά το Άρθρο 9 GDPR
- Παρουσία εγγράφων: Συμβόλαια εργασίας, αιτήσεις υγειονομικής ασφάλισης, συνταξιοδοτικά έγγραφα
Adóazonosító jel (Φορολογικό Αναγνωριστικό):
- Μορφή: 10 ψηφία
- Πρώτο ψηφίο: Πάντα 8
- Ψηφία 2-7: Αριθμός ημερών από 01/01/1867 έως ημερομηνία γέννησης
- Ψηφία 8-9: Τυχαία για μοναδικότητα
- Ψηφίο 10: Ψηφίο ελέγχου
Η Πρόκληση Ουγγρικής NER
Η ουγγρική γλώσσα παρουσιάζει προκλήσεις NER λόγω:
- Πλούσιας μορφολογίας (εκτεταμένη κλίση ονομάτων και επιθέτων)
- Αντεστραμμένης σειράς ονόματος (Επώνυμο Μικρό όνομα — αντίθετα από τα δυτικά πρότυπα)
- Φτωχής αντιπροσώπευσης στα εκπαιδευτικά σύνολα δεδομένων NLP
Αποτέλεσμα: ακρίβεια NER 67% σε σχέση με τον μέσο ΕΕ 82% για γενικά εργαλεία. Το spaCy hu_core_news_lg βελτιώνει αυτό αλλά εξακολουθεί να υπολείπεται 8-12%.
Πηγές: