By · Last updated 2026-06-06

Kembali ke BlogGDPR & Pematuhan

NAIH Hungary: TAJ-Szam dan Adóazonosító Jel

Ketepatan NER Hungary ialah 67% berbanding purata EU 82% — penilaian NAIH 2024. Jurang pengesanan TAJ-szam checksum berbobot dan adóazonosító jel.

June 6, 20267 min baca
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

NAIH Hungary: TAJ-Szám dan Keperluan Teknikal GDPR

Dikemas kini untuk 2026

Pihak berkuasa data Hungary ialah NAIH. Laporan 2024-nya mendapati bahawa ketepatan NER untuk bahasa Hungary hanya 67%. Purata EU ialah 82%. Jurang itu menimbulkan risiko nyata. Alat yang dibina untuk bahasa Inggeris atau Jerman terlepas pengenal Hungary pada kadar tinggi.

Mengapa NER Hungary Mendapat Markah Rendah

Tiga ciri bahasa Hungary memecahkan model NLP standard.

Aglutinasi: Bahasa Hungary menambah akhiran kepada kata akar. Nama yang sama mengambil banyak bentuk dalam ayat. "Kovács Péter" dalam kedudukan subjek menjadi "Kovács Péternek" dalam peranan lain. Model NER mesti menghubungkan semua bentuk tersebut kepada satu orang.

Susunan nama: Hungary meletakkan nama keluarga dahulu. Kebanyakan model NLP mengharapkan nama pertama dahulu. Penyongsangan itu menyebabkan pengesanan terlepas.

Aksara khas: Hungary menggunakan ő dan ű. Ini bukan sama dengan umlaut Jerman. Pengekodan bercampur — Windows-1250 berbanding UTF-8 — juga menyebabkan kegagalan.

Tiga faktor ini menjelaskan sebahagian besar jurang ketepatan dalam laporan NAIH 2024.

TAJ-Szám: Nombor Jaminan Sosial Hungary

TAJ-szám (Társadalombiztosítási Azonosító Jel) ialah nombor 9 digit. Ia muncul dalam rekod penjagaan kesihatan, senarai gaji, faedah sosial, dan pencen.

Checksum: Darabkan digit 1 hingga 8 dengan pemberat 3, 7, 3, 7, 3, 7, 3, 7. Tambah hasilnya. Ambil modulo 10. Itu memberikan digit semak.

Algoritma ini unik kepada Hungary. Ia bukan algoritma Luhn yang digunakan di negara lain.

Alat generik mengesan TAJ-szám hanya pada ketepatan 61%, mengikut laporan NAIH 2024. Format 9 digit kelihatan seperti banyak nombor lain dalam dokumen Hungary. Tanpa langkah checksum, alat menandai positif palsu dan terlepas yang sebenar.

Adóazonosító Jel: ID Cukai Hungary

Adóazonosító jel ialah nombor cukai peribadi 10 digit. Digit pertama sentiasa 8. Ia muncul dalam rekod pekerjaan, pemfailan cukai, dan dokumen kewangan.

Checksum: Ambil digit 2 hingga 9. Darabkan dengan pemberat 9, 7, 3, 1, 9, 7, 3, 1. Tambah hasilnya. Ambil modulo 10. Itulah digit semak. Keputusan 0 bermakna digit semak ialah 0.

Kes penguatkuasaan NAIH menunjukkan nombor ini sering terlepas dalam dokumen HR apabila alat ditetapkan untuk bahasa lain.

Lihat panduan ID cukai nasional EU kami untuk cara nombor ini dibandingkan merentasi negara anggota.

Keperluan DPIA NAIH untuk Sistem AI

Panduan 2024 NAIH memerlukan DPIA yang lengkap sebelum mana-mana sistem AI memproses data peribadi. Ini lebih ketat daripada ujian GDPR am. DPIA mesti merangkumi:

  1. Aliran data — data latihan, input, dan output
  2. Asas undang-undang — didokumentasikan untuk setiap aktiviti
  3. Ketepatan bahasa — diperlukan untuk bahasa di bawah purata EU
  4. Semakan manusia — cara untuk menyemak keputusan automatik

DPIA mesti dikemas kini setiap tahun apabila sistem dilatih semula.

Bagi pasukan yang menggunakan alat AI pada data Hungary, susunannya tetap: DPIA dahulu, kemudian penggunaan.

Kawalan Teknikal Minimum

Tiga kawalan membentuk garis asas untuk pematuhan NAIH:

  1. Pengesanan TAJ-szám dengan checksum modulo-10 — padanan corak sahaja tidak mencukupi
  2. Pengesanan adóazonosító jel dengan pengesahan checksum — kritikal untuk HR dan kewangan
  3. NER Hungary dengan sokongan aglutinasi — mesti mengendalikan ő, ű, dan varian pengekodan

Lihat panduan BFDI Jerman kami untuk membandingkan cara DPA Eropah Tengah menetapkan keperluan teknikal. Untuk jurang bahasa yang serupa di Eropah Tengah, lihat panduan ÚOOÚ Czech kami.

Sumber

Sedia untuk melindungi data anda?

Mulakan pengenalan PII dengan 285+ jenis entiti dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.