NAIH Hungary: TAJ-Szám và Yêu Cầu Kỹ Thuật GDPR
Cập nhật cho năm 2026
Cơ quan dữ liệu của Hungary là NAIH. Báo cáo năm 2024 của cơ quan phát hiện rằng độ chính xác NER cho tiếng Hungary chỉ là 67%. Trung bình EU là 82%. Khoảng cách đó tạo ra rủi ro thực sự. Các công cụ xây dựng cho tiếng Anh hay tiếng Đức bỏ sót định danh Hungary ở tỷ lệ cao.
Tại Sao NER Tiếng Hungary Đạt Điểm Thấp
Ba đặc điểm của tiếng Hungary phá vỡ các mô hình NLP chuẩn.
Kết dính: Tiếng Hungary thêm hậu tố vào các từ gốc. Cùng một tên có nhiều dạng trong một câu. "Kovács Péter" ở vị trí chủ ngữ trở thành "Kovács Péternek" ở vai trò khác. Các mô hình NER phải liên kết tất cả các dạng đó về một người.
Thứ tự tên: Tiếng Hungary đặt họ trước. Hầu hết các mô hình NLP mong đợi tên trước. Sự đảo ngược đó gây ra các trường hợp bỏ sót phát hiện.
Ký tự đặc biệt: Tiếng Hungary sử dụng ő và ű. Chúng không giống như umlauts tiếng Đức. Mã hóa hỗn hợp — Windows-1250 so với UTF-8 — cũng gây lỗi.
Ba yếu tố này giải thích hầu hết khoảng cách độ chính xác trong báo cáo năm 2024 của NAIH.
TAJ-Szám: Số An Sinh Xã Hội của Hungary
TAJ-szám (Társadalombiztosítási Azonosító Jel) là số gồm 9 chữ số. Nó xuất hiện trong hồ sơ chăm sóc sức khỏe, bảng lương, phúc lợi xã hội và hưu trí.
Checksum: Nhân các chữ số 1 đến 8 với các trọng số 3, 7, 3, 7, 3, 7, 3, 7. Cộng các kết quả. Lấy modulo 10. Đó là chữ số kiểm tra.
Thuật toán này là duy nhất với Hungary. Nó không giống thuật toán Luhn được sử dụng ở các quốc gia khác.
Các công cụ thông thường phát hiện TAJ-szám chỉ ở độ chính xác 61%, theo báo cáo NAIH 2024. Định dạng 9 chữ số trông giống nhiều số khác trong tài liệu Hungary. Không có bước checksum, các công cụ cắm cờ dương tính giả và bỏ sót những cái thực.
Adóazonosító Jel: Mã Số Thuế của Hungary
Adóazonosító jel là mã số thuế cá nhân gồm 10 chữ số. Chữ số đầu tiên luôn là 8. Nó xuất hiện trong hồ sơ lao động, hồ sơ thuế và tài liệu tài chính.
Checksum: Lấy các chữ số 2 đến 9. Nhân với các trọng số 9, 7, 3, 1, 9, 7, 3, 1. Cộng các kết quả. Lấy modulo 10. Đó là chữ số kiểm tra. Kết quả bằng 0 có nghĩa là chữ số kiểm tra là 0.
Các vụ thực thi NAIH cho thấy số này thường bị bỏ sót trong tài liệu HR khi các công cụ được thiết lập cho các ngôn ngữ khác.
Xem hướng dẫn mã số thuế quốc gia EU của chúng tôi về cách các số này so sánh giữa các quốc gia thành viên.
Yêu Cầu DPIA của NAIH cho Hệ Thống AI
Hướng dẫn năm 2024 của NAIH yêu cầu hoàn thành DPIA trước khi bất kỳ hệ thống AI nào xử lý dữ liệu cá nhân. Điều này nghiêm ngặt hơn kiểm tra GDPR chung. DPIA phải bao phủ:
- Luồng dữ liệu — dữ liệu huấn luyện, đầu vào và đầu ra
- Cơ sở pháp lý — được ghi lại cho từng hoạt động
- Độ chính xác ngôn ngữ — bắt buộc cho các ngôn ngữ dưới trung bình EU
- Xem xét của con người — một cách để kiểm tra các quyết định tự động
DPIA phải được cập nhật hàng năm khi hệ thống được huấn luyện lại.
Đối với các nhóm triển khai công cụ AI trên dữ liệu Hungary, thứ tự cố định: DPIA trước, sau đó triển khai.
Biện Pháp Kiểm Soát Kỹ Thuật Tối Thiểu
Ba biện pháp kiểm soát tạo thành đường cơ sở tuân thủ NAIH:
- Phát hiện TAJ-szám với checksum modulo-10 — chỉ khớp mẫu là không đủ
- Phát hiện adóazonosító jel với xác thực checksum — quan trọng cho HR và tài chính
- NER tiếng Hungary với hỗ trợ kết dính — phải xử lý ő, ű và các biến thể mã hóa
Xem hướng dẫn BFDI Đức của chúng tôi để so sánh cách các DPA Trung Âu đặt ra các yêu cầu kỹ thuật. Để biết khoảng cách ngôn ngữ tương tự ở Trung Âu, xem hướng dẫn ÚOOÚ Séc của chúng tôi.