anonym.legal

By · Last updated 2026-06-05

Nazaj na blogGDPR in skladnost

NAIH Madzarska: TAJ-szam in Adoazonosito jel

Tocnost NER za madzarscino je 67 % v primerjavi s povprecjem EU 82 % - ocena NAIH za leto 2024. Vrzeli v zaznavanju utezene kontrolne vsote TAJ-szam in adoazonosito jel.

June 5, 20267 min branja
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

NAIH Madzarska: TAJ-szam in tehnicne zahteve GDPR

Posodobljeno za leto 2026

Madzarski podatkovni organ je NAIH. Njegovo porocilo za leto 2024 je pokazalo, da je tocnost NER za madzarscino le 67 %. Povprecje EU je 82 %. Ta vrzel ustvarja resnicno tveganje. Orodja, zgrajena za anglescino ali nemscino, zamudijo madzarske identifikatorje pri visokih stopnjah.

Zakaj NER za madzarscino dosega nizke rezultate

Tri lastnosti madzarscine unicijo standardne modele NLP.

Aglutinacija: Madzarscina dodaja pripone k korenom besed. Isto ime zavzame mnoge oblike v stavku. 'Kovacs Peter' v polozaju subjekta postane 'Kovacs Peternek' v drugi vlogi. Modeli NER morajo vse te oblike povezati z eno osebo.

Vrstni red imen: Madzarscina postavi priimek na prvo mesto. Vecina modelov NLP pricakuje najprej krstno ime. Ta obrat povzroca zamudena zaznavanja.

Posebni znaki: Madzarscina uporablja o in u. Nista enaka nemskim preglasnim. Mesano kodiranje - Windows-1250 v primerjavi z UTF-8 - prav tako povzroca napake.

Ti trije dejavniki pojasnjujejo vecino vrzeli v tocnosti v porocilu NAIH za leto 2024.

TAJ-szam: Madzarska stevilka socialnega zavarovanja

TAJ-szam (Tarsadalombiztositasi Azonosito Jel) je 9-mestna stevilka. Pojavi se v zdravstvenih, placnih, socialnih in pokojninskih evidencah.

Kontrolna vsota: Stevke 1 do 8 pomnozimo s ponderji 3, 7, 3, 7, 3, 7, 3, 7. Sestejemo rezultate. Vzamemo modulo 10. To da kontrolno stevko.

Ta algoritem je unikaten za Madzarsko. Ni enak algoritmu Luhn, ki se uporablja v drugih drzavah.

Geneticna orodja zaznajo TAJ-szam le pri 61 % tocnosti, glede na porocilo NAIH 2024. 9-mestni format je videti kot mnoge druge stevilke v madzarskih dokumentih. Brez koraka s kontrolno vsoto orodja oznacijo lazno pozitivne in zamudijo prave.

Adoazonosito jel: Madzarska davcna stevilka

Adoazonosito jel je 10-mestna osebna davcna stevilka. Prva stevka je vedno 8. Pojavi se v evidencah zaposlenih, davcnih napovedih in financnih dokumentih.

Kontrolna vsota: Vzamemo stevke 2 do 9. Pomnozimo s ponderji 9, 7, 3, 1, 9, 7, 3, 1. Sestejemo rezultate. Vzamemo modulo 10. To je kontrolna stevka. Rezultat 0 pomeni, da je kontrolna stevka 0.

Primeri izvrsevalnih ukrepov NAIH kazejo, da je ta stevilka pogosto zamudena v kadrovskih dokumentih, ko so orodja nastavljena za druge jezike.

Za primerjavo teh stevilk med drzavami clanicami glejte nas vodnik za davcne ID EU.

Zahteva NAIH po DPIA za sisteme umetne inteligence

Smernice NAIH iz leta 2024 zahtevajo dokoncano DPIA pred tem, ko kateri koli sistem umetne inteligence obdeluje osebne podatke. To je strozje od splosnega testa GDPR. DPIA mora zajemati:

  1. Tokovi podatkov - ucni podatki, vnosi in izhodi
  2. Pravna podlaga - dokumentirana za vsako dejavnost
  3. Tocnost v jeziku - zahtevana za jezike pod povprecjem EU
  4. Clovekov pregled - nacin preverjanja avtomatiziranih odlocitev

DPIA je treba posodobiti vsako leto, ko je sistem ponovno usposobljen.

Za ekipe, ki uvajajo orodja umetne inteligence na madzarskih podatkih, je vrstni red fiksen: najprej DPIA, nato uvajanje.

Minimalni tehnicni nadzori

Tri kontrole tvorijo osnovo za skladnost z NAIH:

  1. Zaznavanje TAJ-szam s kontrolno vsoto modulo-10 - samo ujemanje vzorcev ni dovolj
  2. Zaznavanje adoazonosito jel z validacijo kontrolne vsote - kriticno za kadrovske in finance
  3. NER za madzarscino s podporo aglutinacije - mora obravnavati o, u in razlicicice kodiranja

Za primerjavo tehnicnih zahtev osrednjeevropskih organov za varstvo podatkov glejte nas vodnik BFDI Nemcija. Za podobno jezikovno vrzel v srednji Evropi glejte nas vodnik ceske UOOU.

Viri

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.