By · Last updated 2026-06-05

Tagasi BlogisseGDPR ja Vastavus

NAIH Ungari: TAJ-szam ja Adoazonosito Jel

Ungari NER-i tapsus on 67% vs ELi keskmine 82% — NAIH-i 2024. aasta hindamine. TAJ-szam kaalutud kontrollsumma ja adoazonosito jel tuvastamise lüngad.

June 5, 20267 min lugemist
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

NAIH Ungari: TAJ-szam ja GDPR tehnilised noudmised

Uuendatud 2026. aasta seisuga

Ungari andmekaitseasutus on NAIH. Selle 2024. aasta aruanne leidis, et NER-i tapsus ungari keele jaoks on vaid 67%. ELi keskmine on 82%. See lunk tekitab reaalse riski. Inglise voi saksa keele jaoks loodud tooriistad jatavad ungari identifikaatoreid vahele suures mahus.

Miks ungari NER-i tulemus on madal

Kolm ungari keele iseara rikuvad standardsed NLP-mudelid.

Aglutineerumine: Ungari keel lisab juursõnadele lõpusid. Sama nimi vottab lauses mitmeid vorme. 'Kovacs Peter' subjektpositsioonis muutub teises rollis kujule 'Kovacs Peternek'. NER-mudelid peavad siduma kõik need vormid ühele inimesele.

Nimejärjestus: Ungari keel paneb perekonnanime esimesele kohale. Enamik NLP-mudeleid ootab ees antud nime kõigepealt. See ümberpööramine põhjustab tuvastamata juhtumeid.

Erimärgid: Ungari keel kasutab tähti ő ja ű. Need ei ole samad mis saksa umlaute. Segakodeerimine — Windows-1250 vs UTF-8 — põhjustab samuti ebaõnnestumisi.

Need kolm tegurit selgitavad enamiku NAIH-i 2024. aasta aruande täpsuse lüngast.

TAJ-szam: Ungari sotsiaalkindlustuse number

TAJ-szam (Tarsadalombiztositasi Azonosito Jel) on 9-kohaline number. See esineb tervishoiu-, palga-, sotsiaaltoetuste ja pensionikandetes.

Kontrollsumma: Korrutatakse numbrid 1 kuni 8 kaaludega 3, 7, 3, 7, 3, 7, 3, 7. Summeeritakse tulemused. Võetakse modulo 10. See annab kontrollnumbri.

See algoritm on ainulaadne Ungarile. See ei ole sama kui teistes riikides kasutatav Luhn-algoritm.

Üldised tööriistad tuvastavad TAJ-szam-i vaid 61% tapsusega, vastavalt NAIH-i 2024. aasta aruandele. 9-kohaline formaat sarnaneb paljude teiste numbritega ungarikeelsetes dokumentides. Ilma kontrollsumma sammuta märgivad tööriistad valepositiivseid ja lasevad realseid vahele.

Adoazonosito Jel: Ungari maksu-ID

Adoazonosito jel on 10-kohaline isiklik maksunumber. Esimene number on alati 8. See esineb tooandmetel, maksudeklaratsioonidel ja finantsandmetel.

Kontrollsumma: Võetakse numbrid 2 kuni 9. Korrutatakse kaaludega 9, 7, 3, 1, 9, 7, 3, 1. Summeeritakse tulemused. Võetakse modulo 10. See on kontrollnumber. Tulemus 0 tähendab, et kontrollnumber on 0.

NAIH-i jõustamisjuhtumid näitavad, et seda numbrit jäetakse sageli personalidokumentides vahele, kui tööriistad on seadistatud teistele keeltele.

Vaadake meie ELi riiklikku maksu-ID juhendit selle kohta, kuidas need numbrid võrreldes liikmesriikidega.

NAIH-i DPIA nõue AI-süsteemidele

NAIH-i 2024. aasta juhend nõuab lõpetatud mõjuhindamist (DPIA) enne mis tahes AI-süsteemi isikuandmete töötlemist. See on rangem kui üldine GDPR-i test. DPIA peab hõlmama:

  1. Andmevood — koolitusandmed, sisendid ja väljundid
  2. Õiguslik alus — dokumenteeritud iga tegevuse jaoks
  3. Keele tapsus — nõutav ELi keskmisest madalama tasemega keelte puhul
  4. Inimkontroll — viis automatiseeritud otsuste kontrollimiseks

DPIA-d tuleb uuendada igal aastal, kui süsteem läbib uuesti koolituse.

Meeskondadele, kes võtavad kasutusele AI-tööriistu ungarikeelsetel andmetel, on järjestus fikseeritud: kõigepealt DPIA, siis kasutuselevaatus.

Minimaalsed tehnilised kontrollid

Kolm kontrolli moodustavad NAIH-i vastavuse lähtetaseme:

  1. TAJ-szam tuvastamine modulo-10 kontrollsummaga — ainult mustrite sobitamine ei ole piisav
  2. Adoazonosito jel tuvastamine kontrollsumma valideerimisega — kriitilise tahtsusega personalitoo ja rahanduse jaoks
  3. Ungari NER aglutinatsiooniga — peab käsitlema tähti ő, ű ja kodeerimise variante

Vaadake meie BfDI Saksamaa juhendit, et võrrelda Kesk-Euroopa andmekaitseasutuste tehnilisi nõudeid. Sarnase keelelise lünga kohta Kesk-Euroopas vaadake meie Tsehhi UOOU juhendit.

Allikad

Kas olete valmis oma andmeid kaitsma?

Alustage PII anonüümitamist 285+ üksustüübi abil 48 keeles.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.