By · Last updated 2026-06-05

Quay lại BlogGDPR & Tuân Thủ

NAIH Hungary: TAJ-Szám và Adóazonosító Jel

Độ chính xác NER tiếng Hungary là 67% so với trung bình EU 82% — đánh giá NAIH 2024. Khoảng cách phát hiện TAJ-szám với checksum có trọng số và adóazonosító jel.

June 5, 20267 phút đọc
Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

NAIH Hungary: TAJ-Szám và Yêu Cầu Kỹ Thuật GDPR

Cập nhật cho năm 2026

Cơ quan dữ liệu của Hungary là NAIH. Báo cáo năm 2024 của cơ quan phát hiện rằng độ chính xác NER cho tiếng Hungary chỉ là 67%. Trung bình EU là 82%. Khoảng cách đó tạo ra rủi ro thực sự. Các công cụ xây dựng cho tiếng Anh hay tiếng Đức bỏ sót định danh Hungary ở tỷ lệ cao.

Tại Sao NER Tiếng Hungary Đạt Điểm Thấp

Ba đặc điểm của tiếng Hungary phá vỡ các mô hình NLP chuẩn.

Kết dính: Tiếng Hungary thêm hậu tố vào các từ gốc. Cùng một tên có nhiều dạng trong một câu. "Kovács Péter" ở vị trí chủ ngữ trở thành "Kovács Péternek" ở vai trò khác. Các mô hình NER phải liên kết tất cả các dạng đó về một người.

Thứ tự tên: Tiếng Hungary đặt họ trước. Hầu hết các mô hình NLP mong đợi tên trước. Sự đảo ngược đó gây ra các trường hợp bỏ sót phát hiện.

Ký tự đặc biệt: Tiếng Hungary sử dụng ő và ű. Chúng không giống như umlauts tiếng Đức. Mã hóa hỗn hợp — Windows-1250 so với UTF-8 — cũng gây lỗi.

Ba yếu tố này giải thích hầu hết khoảng cách độ chính xác trong báo cáo năm 2024 của NAIH.

TAJ-Szám: Số An Sinh Xã Hội của Hungary

TAJ-szám (Társadalombiztosítási Azonosító Jel) là số gồm 9 chữ số. Nó xuất hiện trong hồ sơ chăm sóc sức khỏe, bảng lương, phúc lợi xã hội và hưu trí.

Checksum: Nhân các chữ số 1 đến 8 với các trọng số 3, 7, 3, 7, 3, 7, 3, 7. Cộng các kết quả. Lấy modulo 10. Đó là chữ số kiểm tra.

Thuật toán này là duy nhất với Hungary. Nó không giống thuật toán Luhn được sử dụng ở các quốc gia khác.

Các công cụ thông thường phát hiện TAJ-szám chỉ ở độ chính xác 61%, theo báo cáo NAIH 2024. Định dạng 9 chữ số trông giống nhiều số khác trong tài liệu Hungary. Không có bước checksum, các công cụ cắm cờ dương tính giả và bỏ sót những cái thực.

Adóazonosító Jel: Mã Số Thuế của Hungary

Adóazonosító jel là mã số thuế cá nhân gồm 10 chữ số. Chữ số đầu tiên luôn là 8. Nó xuất hiện trong hồ sơ lao động, hồ sơ thuế và tài liệu tài chính.

Checksum: Lấy các chữ số 2 đến 9. Nhân với các trọng số 9, 7, 3, 1, 9, 7, 3, 1. Cộng các kết quả. Lấy modulo 10. Đó là chữ số kiểm tra. Kết quả bằng 0 có nghĩa là chữ số kiểm tra là 0.

Các vụ thực thi NAIH cho thấy số này thường bị bỏ sót trong tài liệu HR khi các công cụ được thiết lập cho các ngôn ngữ khác.

Xem hướng dẫn mã số thuế quốc gia EU của chúng tôi về cách các số này so sánh giữa các quốc gia thành viên.

Yêu Cầu DPIA của NAIH cho Hệ Thống AI

Hướng dẫn năm 2024 của NAIH yêu cầu hoàn thành DPIA trước khi bất kỳ hệ thống AI nào xử lý dữ liệu cá nhân. Điều này nghiêm ngặt hơn kiểm tra GDPR chung. DPIA phải bao phủ:

  1. Luồng dữ liệu — dữ liệu huấn luyện, đầu vào và đầu ra
  2. Cơ sở pháp lý — được ghi lại cho từng hoạt động
  3. Độ chính xác ngôn ngữ — bắt buộc cho các ngôn ngữ dưới trung bình EU
  4. Xem xét của con người — một cách để kiểm tra các quyết định tự động

DPIA phải được cập nhật hàng năm khi hệ thống được huấn luyện lại.

Đối với các nhóm triển khai công cụ AI trên dữ liệu Hungary, thứ tự cố định: DPIA trước, sau đó triển khai.

Biện Pháp Kiểm Soát Kỹ Thuật Tối Thiểu

Ba biện pháp kiểm soát tạo thành đường cơ sở tuân thủ NAIH:

  1. Phát hiện TAJ-szám với checksum modulo-10 — chỉ khớp mẫu là không đủ
  2. Phát hiện adóazonosító jel với xác thực checksum — quan trọng cho HR và tài chính
  3. NER tiếng Hungary với hỗ trợ kết dính — phải xử lý ő, ű và các biến thể mã hóa

Xem hướng dẫn BFDI Đức của chúng tôi để so sánh cách các DPA Trung Âu đặt ra các yêu cầu kỹ thuật. Để biết khoảng cách ngôn ngữ tương tự ở Trung Âu, xem hướng dẫn ÚOOÚ Séc của chúng tôi.

Nguồn

Sẵn sàng bảo vệ dữ liệu của bạn?

Bắt đầu ẩn danh PII với 285+ loại thực thể trên 48 ngôn ngữ.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.