anonym.legal

By · Last updated 2026-06-06

Πίσω στο BlogGDPR & Συμμόρφωση

NAIH Ουγγαρία: TAJ-Szám και Adóazonosító Jel

Η ακρίβεια NER για την ουγγρική γλώσσα είναι 67% έναντι του μέσου όρου ΕΕ 82% — αξιολόγηση NAIH 2024. Κενά εντοπισμού TAJ-szám με σταθμισμένο άθροισμα ελέγχου και adóazonosító jel.

June 6, 20267 λεπτά ανάγνωσης
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

NAIH Ουγγαρία: TAJ-Szám και Τεχνικές Απαιτήσεις GDPR

Ενημερωμένο για το 2026

Η ουγγρική αρχή προστασίας δεδομένων είναι η NAIH. Η έκθεσή της για το 2024 διαπίστωσε ότι η ακρίβεια NER για την ουγγρική γλώσσα είναι μόλις 67%. Ο μέσος όρος ΕΕ είναι 82%. Αυτό το χάσμα δημιουργεί πραγματικό κίνδυνο. Εργαλεία κατασκευασμένα για αγγλικά ή γερμανικά χάνουν ουγγρικούς αναγνωριστικούς σε υψηλά ποσοστά.

Γιατί η Ουγγρική NER Αποδίδει Χαμηλά

Τρία χαρακτηριστικά της ουγγρικής γλώσσας δυσχεραίνουν τα τυπικά μοντέλα NLP.

Συγκόλληση: Η ουγγρική προσαρτά επιθήματα σε ρίζες λέξεων. Το ίδιο όνομα παίρνει πολλές μορφές μέσα σε μια πρόταση. Το «Kovács Péter» στη θέση υποκειμένου γίνεται «Kovács Péternek» σε άλλο ρόλο. Τα μοντέλα NER πρέπει να συνδέουν όλες αυτές τις μορφές με ένα πρόσωπο.

Σειρά ονόματος: Η ουγγρική τοποθετεί το επώνυμο πρώτο. Τα περισσότερα μοντέλα NLP αναμένουν πρώτα το μικρό όνομα. Αυτή η αντιστροφή προκαλεί αστοχίες εντοπισμού.

Ειδικοί χαρακτήρες: Η ουγγρική χρησιμοποιεί τα ő και ű. Δεν είναι τα ίδια με τις γερμανικές umlauts. Η μικτή κωδικοποίηση — Windows-1250 έναντι UTF-8 — επίσης προκαλεί αστοχίες.

Αυτοί οι τρεις παράγοντες εξηγούν το μεγαλύτερο μέρος του χάσματος ακρίβειας στην έκθεση NAIH 2024.

TAJ-Szám: Ο Αριθμός Κοινωνικής Ασφάλισης της Ουγγαρίας

Το TAJ-szám (Társadalombiztosítási Azonosító Jel) είναι ένας 9ψήφιος αριθμός. Εμφανίζεται σε αρχεία υγειονομικής περίθαλψης, μισθοδοσίας, κοινωνικών παροχών και συντάξεων.

Άθροισμα ελέγχου: Πολλαπλασιάστε τα ψηφία 1 έως 8 με τους συντελεστές 3, 7, 3, 7, 3, 7, 3, 7. Αθροίστε τα αποτελέσματα. Πάρτε το υπόλοιπο της διαίρεσης με το 10. Αυτό δίνει το ψηφίο ελέγχου.

Αυτός ο αλγόριθμος είναι μοναδικός για την Ουγγαρία. Δεν είναι ο ίδιος με τον αλγόριθμο Luhn που χρησιμοποιείται σε άλλες χώρες.

Τα γενικά εργαλεία εντοπίζουν το TAJ-szám με ακρίβεια μόλις 61%, σύμφωνα με την έκθεση NAIH 2024. Η 9ψήφια μορφή μοιάζει με πολλούς άλλους αριθμούς σε ουγγρικά έγγραφα. Χωρίς το βήμα του αθροίσματος ελέγχου, τα εργαλεία ανιχνεύουν ψευδώς θετικά αποτελέσματα και χάνουν τα πραγματικά.

Adóazonosító Jel: Ο Φορολογικός Αριθμός της Ουγγαρίας

Το adóazonosító jel είναι ένας 10ψήφιος προσωπικός φορολογικός αριθμός. Το πρώτο ψηφίο είναι πάντα 8. Εμφανίζεται σε αρχεία απασχόλησης, φορολογικές δηλώσεις και οικονομικά έγγραφα.

Άθροισμα ελέγχου: Λάβετε τα ψηφία 2 έως 9. Πολλαπλασιάστε με τους συντελεστές 9, 7, 3, 1, 9, 7, 3, 1. Αθροίστε τα αποτελέσματα. Πάρτε το υπόλοιπο της διαίρεσης με το 10. Αυτό είναι το ψηφίο ελέγχου. Αποτέλεσμα 0 σημαίνει ότι το ψηφίο ελέγχου είναι 0.

Οι υποθέσεις εκτέλεσης αποφάσεων της NAIH δείχνουν ότι αυτός ο αριθμός συχνά διαφεύγει σε έγγραφα ανθρωπίνου δυναμικού όταν τα εργαλεία είναι ρυθμισμένα για άλλες γλώσσες.

Δείτε τον οδηγό μας για εθνικά φορολογικά αναγνωριστικά ΕΕ για σύγκριση αυτών των αριθμών μεταξύ των κρατών μελών.

Απαίτηση DPIA της NAIH για Συστήματα ΑΙ

Η καθοδήγηση της NAIH για το 2024 απαιτεί ολοκληρωμένη DPIA πριν από οποιαδήποτε επεξεργασία προσωπικών δεδομένων από σύστημα ΑΙ. Αυτό είναι αυστηρότερο από τη γενική δοκιμασία GDPR. Η DPIA πρέπει να καλύπτει:

  1. Ροές δεδομένων — δεδομένα εκπαίδευσης, εισροές και εκροές
  2. Νομική βάση — τεκμηριωμένη για κάθε δραστηριότητα
  3. Ακρίβεια γλώσσας — απαιτείται για γλώσσες κάτω από τον μέσο όρο ΕΕ
  4. Ανθρώπινη επανεξέταση — μέσο ελέγχου αυτοματοποιημένων αποφάσεων

Η DPIA πρέπει να ενημερώνεται κάθε χρόνο όταν το σύστημα επανεκπαιδεύεται.

Για ομάδες που αναπτύσσουν εργαλεία ΑΙ σε ουγγρικά δεδομένα, η σειρά είναι σταθερή: πρώτα DPIA, μετά ανάπτυξη.

Ελάχιστοι Τεχνικοί Έλεγχοι

Τρεις έλεγχοι αποτελούν τη βάση για τη συμμόρφωση με τη NAIH:

  1. Εντοπισμός TAJ-szám με άθροισμα ελέγχου modulo-10 — η αντιστοίχιση προτύπων από μόνη της δεν αρκεί
  2. Εντοπισμός adóazonosító jel με επικύρωση αθροίσματος ελέγχου — κρίσιμο για ανθρώπινο δυναμικό και οικονομικά
  3. Ουγγρική NER με υποστήριξη συγκόλλησης — πρέπει να χειρίζεται ő, ű και παραλλαγές κωδικοποίησης

Δείτε τον οδηγό μας για τη BFDI Γερμανίας για σύγκριση του πώς οι αρχές προστασίας δεδομένων της Κεντρικής Ευρώπης θέτουν τεχνικές απαιτήσεις. Για ένα παρεμφερές χάσμα γλώσσας στην Κεντρική Ευρώπη, δείτε τον οδηγό μας για την τσεχική ÚOOÚ.

Πηγές

Έτοιμοι να προστατεύσετε τα δεδομένα σας;

Ξεκινήστε την ανωνυμοποίηση PII με 285+ τύπους οντοτήτων σε 48 γλώσσες.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.