NAIH 헝가리: TAJ-Szám과 GDPR 기술 요건
2026년 업데이트
헝가리 개인정보보호기관은 NAIH입니다. 2024년 보고서에서 헝가리어 NER 정확도가 단 67%에 불과하다는 사실을 확인했습니다. EU 평균은 82%입니다. 이 격차는 실질적인 위험을 만들어냅니다. 영어 또는 독일어용으로 구축된 도구는 헝가리 식별자를 높은 비율로 놓칩니다.
헝가리어 NER 정확도가 낮은 이유
헝가리어의 세 가지 특성이 표준 NLP 모델을 어렵게 만듭니다.
교착어적 특성: 헝가리어는 어근에 접미사를 붙입니다. 같은 이름이 문장에서 다양한 형태를 취합니다. 주어 위치의 "Kovács Péter"는 다른 역할에서 "Kovács Péternek"이 됩니다. NER 모델은 이 모든 형태를 한 사람과 연결해야 합니다.
이름 순서: 헝가리어는 성을 먼저 씁니다. 대부분의 NLP 모델은 이름이 먼저 오는 것을 기대합니다. 이 역순으로 인해 탐지가 누락됩니다.
특수 문자: 헝가리어는 ő와 ű를 사용합니다. 이는 독일어 움라우트와 다릅니다. Windows-1250과 UTF-8 간의 혼합 인코딩도 오류를 유발합니다.
이 세 가지 요인이 NAIH 2024년 보고서에서 나타난 정확도 격차의 대부분을 설명합니다.
TAJ-Szám: 헝가리 사회보장번호
TAJ-szám(Társadalombiztosítási Azonosító Jel)은 9자리 숫자입니다. 의료, 급여, 사회 급여, 연금 기록에 사용됩니다.
체크섬: 1번~8번 자리에 가중값 3, 7, 3, 7, 3, 7, 3, 7을 곱합니다. 결과를 모두 더합니다. 10으로 나눈 나머지가 검증 자리입니다.
이 알고리즘은 헝가리에 고유합니다. 다른 나라에서 사용하는 Luhn 알고리즘과 다릅니다.
NAIH 2024년 보고서에 따르면, 범용 도구는 TAJ-szám을 61% 정확도로만 탐지합니다. 9자리 형식은 헝가리 문서에서 다른 많은 숫자와 비슷하게 보입니다. 체크섬 단계 없이는 도구가 오탐지와 미탐지를 동시에 발생시킵니다.
아도아조노시토 젤: 헝가리 세금 ID
아도아조노시토 젤(adóazonosító jel)은 10자리 개인 세금 번호입니다. 첫 번째 자리는 항상 8입니다. 고용 기록, 세금 신고서, 금융 문서에 나타납니다.
체크섬: 2번~9번 자리를 취합니다. 가중값 9, 7, 3, 1, 9, 7, 3, 1을 곱합니다. 결과를 더합니다. 10으로 나눈 나머지가 검증 자리입니다. 결과가 0이면 검증 자리는 0입니다.
NAIH 집행 사례를 보면, 이 번호는 다른 언어로 설정된 도구를 사용할 때 HR 문서에서 자주 누락됩니다.
회원국 간 비교는 EU 국가 세금 ID 가이드를 참조하세요.
AI 시스템에 대한 NAIH의 DPIA 요건
NAIH의 2024년 지침은 AI 시스템이 개인 데이터를 처리하기 전에 완성된 DPIA를 요구합니다. 이는 일반적인 GDPR 요건보다 더 엄격합니다. DPIA는 다음을 다루어야 합니다:
- 데이터 흐름 — 학습 데이터, 입력값, 출력값
- 법적 근거 — 각 처리 활동에 대해 문서화
- 언어 정확도 — EU 평균 이하 언어에 대해 필수
- 인간 검토 — 자동화된 결정을 확인하는 방법
DPIA는 시스템이 재학습될 때마다 매년 업데이트해야 합니다.
헝가리어 데이터에 AI 도구를 배포하는 팀에게 순서는 고정되어 있습니다: DPIA 먼저, 그 다음 배포.
최소 기술 통제 조치
NAIH 컴플라이언스의 기준을 이루는 세 가지 통제 조치:
- 모듈로 10 체크섬을 포함한 TAJ-szám 탐지 — 패턴 매칭만으로는 충분하지 않습니다
- 체크섬 검증을 포함한 아도아조노시토 젤 탐지 — HR 및 재무 부문에 필수적입니다
- 교착어 지원을 갖춘 헝가리어 NER — ő, ű 및 인코딩 변형을 처리해야 합니다
중앙 유럽 DPA들이 기술 요건을 설정하는 방식을 비교하려면 BFDI 독일 가이드를 참조하세요. 중앙 유럽의 유사한 언어 격차에 대해서는 체코 ÚOOÚ 가이드를 참조하세요.