NAIH ハンガリー:TAJ-Szám とGDPR技術要件
2026年版に更新済み
ハンガリーのデータ保護機関はNAIHです。2024年の報告書によると、ハンガリー語のNER精度はわずか67%です。EU平均は82%です。この差は実際のリスクを生みます。英語やドイツ語向けのツールはハンガリー語の識別子を見逃しやすいです。
ハンガリー語のNER精度が低い理由
標準的なNLPモデルを妨げる3つの特徴があります。
膠着語(アグルチネーション): ハンガリー語は語根に接尾辞を追加して意味を表します。同じ名前が文中でさまざまな形をとります。「Kovács Péter」は主格ですが、「Kovács Péternek」は与格です。NERモデルはすべての形を1人の人物に結びつける必要があります。
名前の語順: ハンガリー語では苗字が先に来ます。多くのNLPモデルは名前が先に来ると想定しています。この逆順が検出漏れを引き起こします。
特殊文字: ハンガリー語はőとűを使用します。これらはドイツ語のウムラウトとは異なります。Windows-1250とUTF-8の混在エンコーディングもさらに失敗を引き起こします。
これら3つの要因が、NAIH 2024年報告書の精度差の大部分を説明しています。
TAJ-Szám:ハンガリーの社会保障番号
TAJ-szám(Társadalombiztosítási Azonosító Jel)は9桁の番号です。医療記録、給与明細、社会保障、年金口座に使用されます。
チェックデジット: 1〜8桁目に重み3、7、3、7、3、7、3、7を掛けます。合計を求めます。10で割った余りがチェックデジットです。
このアルゴリズムはハンガリー固有です。他国で使用されるLuhnアルゴリズムとは異なります。
NAIH 2024年報告書によると、汎用ツールのTAJ-szám検出精度はわずか61%です。9桁の形式はハンガリー語文書の多くの参照番号と見た目が似ています。チェックサムの手順なしでは誤検知が多くなります。
Adóazonosító Jel:ハンガリーの納税者番号
adóazonosító jelは10桁の個人納税者識別番号です。最初の桁は常に8です。雇用記録、税申告書、金融文書に使われます。
チェックデジット: 2〜9桁目を取ります。重み9、7、3、1、9、7、3、1を掛けます。合計を求めます。10で割った余りがチェックデジットです。余りが0の場合、チェックデジットは0です。
NAIHの執行事例では、他言語向けに設定されたツールを使った場合、この番号がHR文書で見逃されることが多いことが示されています。
加盟国間のこれらの番号の比較は、EU各国の納税者番号ガイドをご覧ください。
AIシステムに対するNAIHのDPIA要件
NAIH 2024年ガイダンスでは、個人データを処理するAIシステムのデプロイ前に完成したDPIAを義務付けています。これはGDPRの一般的なリスクベースのテストよりも厳格です。DPIAは以下を網羅する必要があります:
- データフロー — 学習データ、入力、出力
- 法的根拠 — 各処理活動について文書化
- 言語精度 — EU平均を下回る言語に必要
- 人間によるレビュー — 自動化された意思決定を確認するメカニズム
DPIAはシステムの再学習時に毎年更新する必要があります。
ハンガリー語データにAIツールをデプロイするチームの場合、順序は固定です:まずDPIA、次にデプロイ。
最低限の技術的管理策
NAIH準拠の基準となる3つの管理策:
- TAJ-száms検出(モジュロ10チェックサム) — パターンマッチングだけでは不十分
- adóazonosító jel検出(チェックサム検証) — HRと財務文書に特に重要
- ハンガリー語NER(アグルチネーション対応) — ő、ű、エンコーディングの変種を処理する必要あり
中央ヨーロッパのDPAが技術要件をどのように設定するかの比較はBFDI ドイツガイドをご覧ください。同様の言語ギャップについてはチェコÚOOÚガイドもご参照ください。