ブログに戻るGDPRおよびコンプライアンス

EU AI法 2026年8月:第10条を満たすために訓練データを匿名化

EU AI法全体の実施は2026年8月2日に開始されます。最大€35Mまたは全世界売上高の7%のペナルティ。第10条は訓練データのガバナンスが必要です — 匿名化は重要な準拠メジャーです。

March 16, 20269 分で読めます
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

カウントダウンが始まった

2026年版に更新済み

EU AI法の期限は現実です。第10条のルールは2026年8月2日から適用されます。チームが高リスクAIシステムを構築または運用している場合、今すぐ行動する必要があります。時間は短いです。

罰金はGDPRを上回ります。最大は3,500万ユーロまたは世界年間売上高の7%(いずれか高い方)です。GDPRは2,000万ユーロまたは4%が上限です。他のAI法でこれほど高い罰金はありません。

どのAIシステムが高リスクか?

AI法はシステムをリスクレベルで分類します。高リスクシステム(附属書III)には以下の分野で使用されるAIが含まれます:

  • 教育 — 学校入学や学生の評価
  • 雇用 — 履歴書選考、面接スコアリング、労働者監視
  • 重要サービス — 信用スコアリング、保険料設定、緊急派遣
  • 法執行 — 犯罪予測、生体認証識別
  • 医療 — 医療機器ソフトウェア、患者トリアージ
  • インフラ — エネルギー、水、輸送管理
  • 司法 — 法律調査ツール、量刑推薦システム

これらの分野で業務を行っていますか?第10条があなたに適用されます。

第10条:4つの主要ルール

第10条は高リスクAIシステムが使用するデータセットのルールを定めています。主な4つを説明します。

1. 書面によるガバナンス

データセットは「適切なデータガバナンスおよび管理慣行」に従う必要があります。収集、品質チェック、継続的な見直しのための書面による手順が必要です。

2. バイアステスト

記録は不公平な結果を引き起こす可能性のある「潜在的なバイアス」についてチェックされる必要があります。積極的なテストが必要です。意図的なバイアスを避けるだけでは不十分です。

3. 正確性と網羅性

データセットは「関連性があり、十分に代表的で、エラーがない」必要があります。特定のグループを見落とすウェブクロールはこの基準を満たさない可能性があります。

4. 特別カテゴリ

第10条(5)は最も直接的なルールです。高リスクシステムが特別カテゴリの記録(健康、民族、宗教、政治、生体情報)を使用する場合、バイアスチェックのために「厳密に必要」な場合にのみ処理できます。また「適切な保護措置」を適用する必要があります。匿名化は最も強力な保護措置の一つです。

要点:ほとんどのAIモデルデータセットには個人記録が含まれています。第10条は強力な技術的保護措置とともに必要最小限のものを使用することを求めています。

詳細については法的コンプライアンスページセキュリティ概要をご覧ください。

罰金の段階

EU AI法には3段階の罰金があります。同種の違反に対してすべてGDPRを上回ります:

規制最高罰金売上高上限
GDPR2,000万ユーロ世界売上高の4%
EU AI法(高リスク)1,500万ユーロ世界売上高の3%
EU AI法(禁止)3,500万ユーロ世界売上高の7%

データセット違反は高リスク段階(1,500万ユーロ/3%)に該当します。規制当局が保護措置なしに個人記録を使用することが禁止行為と判断した場合、最高段階が適用されます。

実例:売上高5億ユーロ × 3% = 1,500万ユーロの罰金。売上高50億ユーロ × 3% = 1億5,000万ユーロの罰金。

なぜ匿名化が解決策なのか

適切に匿名化された記録はGDPRの範囲外となります。これにより第10条の負担のほとんどが取り除かれます。

最も困難なルール(特別カテゴリの取り扱い、バイアス監視、データ主体の権利)は、データセットに個人記録が含まれている場合にのみ適用されます。最初にそれらの記録を削除してください。負担はほぼなくなります。

CNIL(フランスのデータ保護機関)は2026年初頭にこれを明確にしました。そのAIガイドラインでは、モデルのパフォーマンスに厳密に必要でない個人情報の匿名化が第10条遵守のための主要な技術的措置であると述べています。

これは少数意見ではありません。EUで最も技術的に進んだAI規制当局の主流の立場です。

匿名化が実際に何を意味するか

AIモデルデータセットのスクラブは、本番記録のスクラブとは異なります。モデルデータセットには以下が含まれる場合があります:

  • 個人情報を含む文書 — 契約書、メール、レポート、サポートチケット
  • 構造化記録 — 予測モデル構築に使用される顧客テーブル
  • ラベル付きコンテンツ — 個人識別子を含む注釈が付いた画像やテキスト
  • 合成記録 — 生成プロセスで識別パターンが保持される可能性があるもの

すべてのフォーマットで個人情報を検出する必要があります。1つのタイプを見逃すとデータセット全体が露出します。

anonym.legal APIは大規模なAIデータセットのバッチ処理を処理します。48言語で285以上のエンティティタイプを検出します。多言語データセットを持つ欧州AI企業にとって、言語をまたいだカバレッジは不可欠です。

エンティティ検出の詳細については、トークンシステムガイドエンティティタイプ参照をご覧ください。

実践的なステップ:データセットの匿名化

ステップ1:まず監査

何も匿名化する前に検出パスを実行してください:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "ja"
  }'

レスポンスはすべての検出されたエンティティをタイプ、位置、スコアとともにリストします。開始前にすべてのファイルにわたって実行して全体の範囲を把握してください。

ステップ2:バッチ匿名化

大規模なデータセットには、バッチエンドポイントを使用して多くのファイルを一度に処理します:

import requests
import os
from pathlib import Path

def anonymize_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "ja"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = anonymize_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"完了: {result['id']} — {len(result['items'])} エンティティ削除")

ステップ3:すべてを記録

第10条は書面による記録を求めています。各データセットについて以下を保管してください:

  • 使用した検出モデルとバージョン
  • 検出されたエンティティタイプと各置換方法
  • データセットごとに削除されたエンティティ数
  • 匿名化の日付と使用したデータセットのバージョン

これにより第10条(2)(a)で求められる「データガバナンスおよび管理慣行」が満たされます。

よくある質問

匿名化はモデルの品質を損なうか?

ほとんどの場合、いいえです。モデルはテキストの構造からパターンを学習し、個人の詳細からではありません。名前、電話番号、住所は[名前][電話]などのプレースホルダーで置き換えることができ、モデルは同じパターンを学習します。多くの研究チームが、匿名化されたデータセットが同等の品質のモデルを生成することを発見しています。

日本語以外のデータセットはどうするか?

APIは48言語をサポートしています。混合データセットもサポートされており、バッチリクエストでドキュメントごとに言語を指定できます。完全な言語リストについてはFAQをご覧ください。

コロラド州AI法:2つの期限

コロラド州のAI法は2026年6月30日に発効します — EUの期限の5週間前です。州法の下で「高リスクAIシステム」に同様のデータセットルールを課します。主な焦点はアルゴリズム差別です。

EUとコロラド州の両方で業務を行うチームは2つの期限に同時に直面します。データセットの匿名化は両方の法律を満たすのに役立ちます:第10条(EU)とコロラド州の差別防止ルール。技術的なステップは同じです。

今すぐ行動を

5ヶ月で十分です — 今日から始めれば。6月まで待つなら十分ではありません。

実践的なタイムライン:

  1. 1〜2週間目: データセットの監査 — どの個人記録が存在するか確認
  2. 3〜6週間目: 匿名化パイプラインの構築とテスト
  3. 7〜10週間目: ガバナンス文書の作成;法的レビューを受ける
  4. 11〜16週間目: 検証 — 匿名化されたデータセットが第10条の品質要件を満たすことを確認
  5. 8月2日: 施行日 — 準拠した慣行が整っている

anonym.legal APIは大きな変更なしに既存のパイプラインに統合できます。大量バッチに適したプランについては料金をご確認ください。FAQは第10条に関するよくある質問に答えています。

EU AI法は執行の準備ができています。あなたの組織は8月2日までに準備できますか?

GDPRコンプライアンスチェックリストから始める →

限界と未解決の問題

AI法準拠のための匿名化はまだ進化中です。主な課題を示します。

閾値は定義されていない。 EU AI法は匿名化の「十分な」レベルを指定していません。欧州AI局がガイダンスを発行するまで、法的不確実性に直面します。

再識別リスクは残る。 研究によると、大規模言語モデルはデータセットのコンテンツを記憶し再現できます。モデル開発前の匿名化はこの問題を完全には解決しません。

合成記録には限界がある。 合成生成は統計的パターンを保持しますが、微妙なバイアスを導入したり、まれなエッジケースを見逃したりする可能性があります。

第10条はまだ解釈中。 「適切な技術的措置」というフレーズは解釈が必要です。EU加盟国全体での早期DPA執行は一貫した基準にまだ落ち着いていません。2026年を通じてEDPBガイダンスと加盟国の決定を注視してください。

出典

  • EU AI法、規則(EU) 2024/1689、第9条〜第17条(高リスクAI義務)、OJ L 2024/1689
  • EU AI法、第10条 — データとデータガバナンス
  • CNIL AIデータセットガイダンス、2026年1月
  • コロラド州AI法、SB 205、2026年6月30日施行
  • EU AI法スケジュール:禁止慣行2025年2月2日;高リスクシステム2026年8月2日

データを保護する準備はできましたか?

48言語で285以上のエンティティタイプを使用してPIIを匿名化し始めましょう。

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.