NAIH 헝가리: TAJ-Szám 및 아도아조노시토 젤

헝가리어 NER 정확도는 67%로 EU 평균 82%에 크게 못 미칩니다 — NAIH 2024년 평가 결과입니다. TAJ-szám 가중 체크섬 및 아도아조노시토 젤 탐지 격차를 다룹니다.

George CurtaMarch 6, 20267 분 읽기

Hungary NAIHTAJ-szám detectionHungarian NERHungarian GDPR complianceAI DPIA

2026년 업데이트

헝가리 개인정보보호기관은 NAIH입니다. 2024년 보고서에서 헝가리어 NER 정확도가 단 67%에 불과하다는 사실을 확인했습니다. EU 평균은 82%입니다. 이 격차는 실질적인 위험을 만들어냅니다. 영어 또는 독일어용으로 구축된 도구는 헝가리 식별자를 높은 비율로 놓칩니다.

헝가리어 NER 정확도가 낮은 이유

헝가리어의 세 가지 특성이 표준 NLP 모델을 어렵게 만듭니다.

교착어적 특성: 헝가리어는 어근에 접미사를 붙입니다. 같은 이름이 문장에서 다양한 형태를 취합니다. 주어 위치의 "Kovács Péter"는 다른 역할에서 "Kovács Péternek"이 됩니다. NER 모델은 이 모든 형태를 한 사람과 연결해야 합니다.

이름 순서: 헝가리어는 성을 먼저 씁니다. 대부분의 NLP 모델은 이름이 먼저 오는 것을 기대합니다. 이 역순으로 인해 탐지가 누락됩니다.

특수 문자: 헝가리어는 ő와 ű를 사용합니다. 이는 독일어 움라우트와 다릅니다. Windows-1250과 UTF-8 간의 혼합 인코딩도 오류를 유발합니다.

이 세 가지 요인이 NAIH 2024년 보고서에서 나타난 정확도 격차의 대부분을 설명합니다.

TAJ-Szám: 헝가리 사회보장번호

TAJ-szám(Társadalombiztosítási Azonosító Jel)은 9자리 숫자입니다. 의료, 급여, 사회 급여, 연금 기록에 사용됩니다.

체크섬: 1번~8번 자리에 가중값 3, 7, 3, 7, 3, 7, 3, 7을 곱합니다. 결과를 모두 더합니다. 10으로 나눈 나머지가 검증 자리입니다.

이 알고리즘은 헝가리에 고유합니다. 다른 나라에서 사용하는 Luhn 알고리즘과 다릅니다.

NAIH 2024년 보고서에 따르면, 범용 도구는 TAJ-szám을 61% 정확도로만 탐지합니다. 9자리 형식은 헝가리 문서에서 다른 많은 숫자와 비슷하게 보입니다. 체크섬 단계 없이는 도구가 오탐지와 미탐지를 동시에 발생시킵니다.

아도아조노시토 젤: 헝가리 세금 ID

아도아조노시토 젤(adóazonosító jel)은 10자리 개인 세금 번호입니다. 첫 번째 자리는 항상 8입니다. 고용 기록, 세금 신고서, 금융 문서에 나타납니다.

체크섬: 2번~9번 자리를 취합니다. 가중값 9, 7, 3, 1, 9, 7, 3, 1을 곱합니다. 결과를 더합니다. 10으로 나눈 나머지가 검증 자리입니다. 결과가 0이면 검증 자리는 0입니다.

NAIH 집행 사례를 보면, 이 번호는 다른 언어로 설정된 도구를 사용할 때 HR 문서에서 자주 누락됩니다.

회원국 간 비교는 EU 국가 세금 ID 가이드를 참조하세요.

AI 시스템에 대한 NAIH의 DPIA 요건

NAIH의 2024년 지침은 AI 시스템이 개인 데이터를 처리하기 전에 완성된 DPIA를 요구합니다. 이는 일반적인 GDPR 요건보다 더 엄격합니다. DPIA는 다음을 다루어야 합니다:

데이터 흐름 — 학습 데이터, 입력값, 출력값
법적 근거 — 각 처리 활동에 대해 문서화
언어 정확도 — EU 평균 이하 언어에 대해 필수
인간 검토 — 자동화된 결정을 확인하는 방법

DPIA는 시스템이 재학습될 때마다 매년 업데이트해야 합니다.

헝가리어 데이터에 AI 도구를 배포하는 팀에게 순서는 고정되어 있습니다: DPIA 먼저, 그 다음 배포.

최소 기술 통제 조치

NAIH 컴플라이언스의 기준을 이루는 세 가지 통제 조치:

모듈로 10 체크섬을 포함한 TAJ-szám 탐지 — 패턴 매칭만으로는 충분하지 않습니다
체크섬 검증을 포함한 아도아조노시토 젤 탐지 — HR 및 재무 부문에 필수적입니다
교착어 지원을 갖춘 헝가리어 NER — ő, ű 및 인코딩 변형을 처리해야 합니다

중앙 유럽 DPA들이 기술 요건을 설정하는 방식을 비교하려면 BFDI 독일 가이드를 참조하세요. 중앙 유럽의 유사한 언어 격차에 대해서는 체코 ÚOOÚ 가이드를 참조하세요.

출처

데이터 보호를 시작할 준비가 되셨나요?

48개 언어로 285개 이상의 엔티티 유형으로 PII 익명화를 시작하세요.

무료 체험 시작 기능 보기

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

We follow these rules

GDPR (EU 2016/679).
ISO/IEC 27001:2022.
NIS2 (EU 2022/2555).
HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our company HQ is in Saarbrücken, Germany. Our servers run in Hetzner's Falkenstein datacenter.

Hetzner holds ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

We never sell your information to third parties.
We never train models on what you upload.
We never keep your work after you delete it.
We never share keys with any outside firm.
We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.

NAIH 헝가리: TAJ-Szám 및 아도아조노시토 젤

헝가리어 NER 정확도가 낮은 이유

TAJ-Szám: 헝가리 사회보장번호

아도아조노시토 젤: 헝가리 세금 ID

AI 시스템에 대한 NAIH의 DPIA 요건

최소 기술 통제 조치

출처

관련 기사

자체 호스팅 PII 도구가 컴플라이언스 감사에서 실패하는 이유

Presidio가 GDPR 엔터티 220개 이상을 누락하는 이유

설정 드리프트: 숨겨진 GDPR 위험

데이터 보호를 시작할 준비가 되셨나요?

NAIH 헝가리: TAJ-Szám 및 아도아조노시토 젤

NAIH 헝가리: TAJ-Szám과 GDPR 기술 요건

헝가리어 NER 정확도가 낮은 이유

TAJ-Szám: 헝가리 사회보장번호

아도아조노시토 젤: 헝가리 세금 ID

AI 시스템에 대한 NAIH의 DPIA 요건

최소 기술 통제 조치

출처

관련 기사

자체 호스팅 PII 도구가 컴플라이언스 감사에서 실패하는 이유

Presidio가 GDPR 엔터티 220개 이상을 누락하는 이유

설정 드리프트: 숨겨진 GDPR 위험

데이터 보호를 시작할 준비가 되셨나요?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow