By · Last updated 2026-06-06

Kembali ke BlogGDPR & Kepatuhan

NAIH Hungaria: TAJ-Szám dan Adóazonosító Jel

Akurasi NER bahasa Hungaria hanya 67% vs rata-rata UE 82% — penilaian NAIH 2024. Celah deteksi checksum berbobot TAJ-szám dan adóazonosító jel.

June 6, 20267 menit baca
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

NAIH Hungaria: TAJ-Szám dan Persyaratan Teknis GDPR

Diperbarui untuk 2026

Otoritas data Hungaria adalah NAIH. Laporan tahun 2024 menemukan bahwa akurasi NER untuk bahasa Hungaria hanya 67%, sementara rata-rata UE adalah 82%. Kesenjangan ini menciptakan risiko nyata karena alat yang dibangun untuk bahasa Inggris atau Jerman melewatkan pengenal Hungaria pada tingkat yang tinggi.

Mengapa Skor NER Bahasa Hungaria Rendah

Tiga fitur bahasa Hungaria merusak model NLP standar.

Aglutinasi: Bahasa Hungaria menambahkan sufiks pada kata dasar. Nama yang sama memiliki banyak bentuk dalam satu kalimat. "Kovács Péter" dalam posisi subjek menjadi "Kovács Péternek" dalam peran lain. Model NER harus menghubungkan semua bentuk tersebut ke satu orang.

Urutan nama: Bahasa Hungaria menempatkan nama keluarga di depan. Kebanyakan model NLP mengharapkan nama depan terlebih dahulu. Pembalikan ini menyebabkan deteksi yang terlewat.

Karakter khusus: Bahasa Hungaria menggunakan ő dan ű yang berbeda dari umlaut Jerman. Pengkodean campuran — Windows-1250 vs UTF-8 — juga menyebabkan kegagalan.

Tiga faktor ini menjelaskan sebagian besar kesenjangan akurasi dalam laporan NAIH 2024.

TAJ-Szám: Nomor Jaminan Sosial Hungaria

TAJ-szám (Társadalombiztosítási Azonosító Jel) adalah nomor 9 digit yang muncul dalam catatan layanan kesehatan, penggajian, tunjangan sosial, dan pensiun.

Checksum: Kalikan digit 1 hingga 8 dengan bobot 3, 7, 3, 7, 3, 7, 3, 7. Jumlahkan hasilnya. Ambil modulo 10 untuk mendapatkan digit pemeriksaan.

Algoritma ini unik untuk Hungaria dan berbeda dari algoritma Luhn yang digunakan di negara-negara lain.

Alat generik mendeteksi TAJ-szám hanya dengan akurasi 61%, menurut laporan NAIH 2024. Format 9 digit menyerupai banyak nomor lain dalam dokumen Hungaria. Tanpa langkah checksum, alat menghasilkan positif palsu dan melewatkan yang asli.

Adóazonosító Jel: ID Pajak Hungaria

Adóazonosító jel adalah nomor pajak pribadi 10 digit dengan digit pertama selalu 8. Nomor ini muncul dalam catatan ketenagakerjaan, pengajuan pajak, dan dokumen keuangan.

Checksum: Ambil digit 2 hingga 9. Kalikan dengan bobot 9, 7, 3, 1, 9, 7, 3, 1. Jumlahkan hasilnya. Ambil modulo 10 untuk mendapatkan digit pemeriksaan. Hasil 0 berarti digit pemeriksaan adalah 0.

Kasus penegakan NAIH menunjukkan nomor ini sering terlewat dalam dokumen HR ketika alat dikonfigurasi untuk bahasa lain.

Lihat panduan ID pajak nasional UE kami untuk melihat bagaimana nomor-nomor ini dibandingkan di seluruh negara anggota.

Persyaratan DPIA NAIH untuk Sistem AI

Panduan NAIH tahun 2024 mewajibkan DPIA yang telah selesai sebelum sistem AI apapun memproses data pribadi. Ini lebih ketat dari uji GDPR umum. DPIA harus mencakup:

  1. Aliran data — data pelatihan, input, dan output
  2. Dasar hukum — didokumentasikan untuk setiap aktivitas
  3. Akurasi bahasa — diperlukan untuk bahasa di bawah rata-rata UE
  4. Tinjauan manusia — cara untuk memeriksa keputusan otomatis

DPIA harus diperbarui setiap tahun ketika sistem dilatih ulang.

Untuk tim yang menerapkan alat AI pada data Hungaria, urutannya sudah pasti: DPIA terlebih dahulu, baru kemudian penerapan.

Kontrol Teknis Minimum

Tiga kontrol membentuk dasar kepatuhan NAIH:

  1. Deteksi TAJ-szám dengan checksum modulo-10 — pencocokan pola saja tidak cukup
  2. Deteksi adóazonosító jel dengan validasi checksum — kritis untuk HR dan keuangan
  3. NER bahasa Hungaria dengan dukungan aglutinasi — harus menangani ő, ű, dan varian pengkodean

Lihat panduan BFDI Jerman kami untuk membandingkan bagaimana DPA Eropa Tengah menetapkan persyaratan teknis. Untuk kesenjangan bahasa serupa di Eropa Tengah, lihat panduan ÚOOÚ Ceko kami.

Sumber

Siap untuk melindungi data Anda?

Mulai anonimisasi PII dengan 285+ jenis entitas dalam 48 bahasa.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.