anonym.legal
Назад до блогуGDPR та відповідність

Закон ЄС про ШІ серпень 2026: анонімізація навчальних даних для відповідності статті 10

Повне виконання Закону ЄС про ШІ починається 2 серпня 2026 року. Штрафи до €35 млн або 7% глобального обороту. Стаття 10 вимагає анонімізації навчальних даних.

March 16, 2026article.updated: June 14, 20269 хв читання
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Відлік почався

Графік виконання Закону ЄС про ШІ більше не є абстрактним. Вимоги до систем ШІ високого ризику — включаючи мандат управління навчальними даними статті 10 — застосовуються з 2 серпня 2026 року. Організації, що навчають, налаштовують або розгортають системи ШІ високого ризику і не встановили відповідних практик навчальних даних, мають приблизно п'ять місяців для виправлення.

Штрафи більші, ніж GDPR: до €35 мільйонів або 7% глобального річного обороту, залежно від того, що більше. GDPR обмежений €20 мільйонами або 4%. Закон ЄС про ШІ є найбільш значним регулюванням ШІ у світі, і його штрафи розраховані так, щоб навіть великі технологічні компанії не могли поглинути невідповідність як витрати ведення бізнесу.

Що робить систему ШІ «високого ризику»?

Класифікація ризику Закону про ШІ визначає, які зобов'язання застосовуються. Системи високого ризику (Додаток III) включають ШІ, що використовується в:

  • Освіті та професійному навчанні — системи, що визначають доступ до освітніх установ або оцінюють учнів
  • Зайнятості — відбір резюме, оцінка співбесід, моніторинг робочої сили
  • Основних послугах — оцінка кредитоспроможності, страхові ціни, диспетчеризація служб швидкої допомоги
  • Правоохоронній діяльності — прогностична поліцейська робота, кримінальна аналітика, біометрична ідентифікація
  • Охороні здоров'я — програмне забезпечення медичних пристроїв, підтримка клінічних рішень, сортування пацієнтів
  • Критичній інфраструктурі — системи управління мережами енергетики, водопостачання, транспорту
  • Відправленні правосуддя — інструменти правових досліджень, системи рекомендацій вироків

Якщо ваша організація навчає або розгортає ШІ в будь-якій із цих категорій, стаття 10 застосовується до вас.

Стаття 10: що вона насправді вимагає

Стаття 10 Закону ЄС про ШІ встановлює вимоги до наборів даних для навчання, валідації та тестування, що використовуються системами ШІ високого ризику. Ключові вимоги:

1. Практики управління даними

Навчальні набори даних повинні підлягати «відповідним практикам управління даними та управляти ними». Це включає задокументовані процедури збору даних, оцінки якості даних та постійного моніторингу. Практики повинні охоплювати мету, для якої використовуються дані, та категорії зібраних даних.

2. Вивчення на предмет упереджень

Навчальні дані повинні бути перевірені на «можливі упередження», які можуть призвести до дискримінаційних результатів. Ця вимога є операційно значущою: вона мандатує активне тестування на упередженість, а не лише відсутність навмисно дискримінаційного дизайну.

3. Релевантність, репрезентативність та точність

Набори даних повинні бути «релевантними, достатньо репрезентативними та якомога більш вільними від помилок». Це створює зобов'язання щодо якості, що поширюється на методологію збору даних — зручні вибірки або зібрані вебдані, що систематично недоrepresented певні популяції, можуть не відповідати цій вимозі для застосувань підвищеного ризику.

4. Особливі категорії персональних даних

Стаття 10(5) надає найбільш безпосередньо дієве зобов'язання для організацій з наявними наборами даних: коли системи ШІ високого ризику залучають обробку особливих категорій персональних даних (дані про здоров'я, расове або етнічне походження, політичні погляди, релігійні переконання, біометричні дані), ці категорії можуть оброблятися лише коли «суворо необхідно для цілей забезпечення моніторингу, виявлення та виправлення упередженості» та «з урахуванням відповідних гарантій основних прав і інтересів фізичних осіб».

Практичний наслідок: Більшість навчальних наборів даних, що використовуються для систем ШІ підвищеного ризику, містять персональні дані, а багато з них містять особливі категорії. Стаття 10 вимагає, щоб ці дані оброблялися лише в мінімально необхідній мірі та з урахуванням відповідних технічних гарантій — з яких анонімізація є найбільш надійною.

Математика штрафів: чому це перевищує GDPR

Структура штрафів Закону ЄС про ШІ перевищує GDPR для навмисних або необережних порушень:

РегулюванняМаксимальний штрафОбмеження обороту
GDPR€20 мільйонів4% глобального обороту
Закон про ШІ ЄС (підвищений ризик)€15 мільйонів3% глобального обороту
Закон про ШІ ЄС (заборонені практики)€35 мільйонів7% глобального обороту

Для порушень навчальних даних застосовний рівень — рівень системи підвищеного ризику (€15 млн / 3%). Однак якщо ОЗД визначить, що навчання на персональних даних без адекватних гарантій є забороненою практикою — визначення, яке стає більш правдоподібним у міру розвитку практики правозастосування Закону — застосовуються штрафи за заборонені практики.

Для компанії з річним оборотом €500 млн: 3% = €15 млн. Для компанії з оборотом €5 млрд: 3% = €150 млн. Це не теоретичні максимуми — це фактичний розрахунок, який застосують регулятори.

Чому анонімізація є відповіддю на відповідність

Анонімізація створює фундаментальне правове спрощення: анонімізовані дані виходять за межі сфери застосування GDPR, і відповідно, зменшують поверхню ризику Закону про ШІ для управління навчальними даними.

Найобтяжливіші вимоги статті 10 — обробка особливих категорій, моніторинг упередженості з персональними даними, права суб'єктів даних у навчальних наборах — застосовуються тому, що навчальні дані містять персональні дані. Якщо навчальні дані справді анонімізовані до початку навчання, ці вимоги або усуваються, або суттєво зменшуються.

CNIL (французький орган захисту даних) опублікував рекомендації щодо навчання ШІ на початку 2026 року, прямо заявляючи: «Мінімізація даних перед навчанням — включаючи анонімізацію персональних даних, суворо не потрібних для продуктивності моделі — є основним технічним заходом для відповідності статті 10».

Це не маргінальна інтерпретація. Це основна позиція правозастосування найбільш технічно досвідченого ОЗД ЄС.

Що означає анонімізація для навчальних даних на практиці

Анонімізація навчальних даних — це не те саме, що анонімізація продакшн-даних. Навчальні дані зазвичай складаються з:

  • Документів із вбудованим PII — договори, електронні листи, звіти, тікети підтримки, що використовуються як приклади налаштування
  • Структурованих записів — таблиці клієнтських даних, що використовуються для навчання прогностичних моделей
  • Мічених наборів даних — зображення або текст з анотаціями, що можуть містити персональні ідентифікатори
  • Синтетичних даних на основі реальних записів — де процес синтетичної генерації може зберігати ідентифікуючі закономірності

Ефективна анонімізація навчальних даних вимагає виявлення PII у всіх цих форматах та його заміни або маскування до запуску завдання навчання. Виявлення сутностей повинно бути всебічним — модель, навчена на даних, де «Іван Петренко» замінено, але «пацієнт за адресою вул. Дубова, 42, Київ» залишається, навчиться асоціювати закономірності розташування з демографічними передбаченнями.

API anonym.legal обробляє навчальні дані в пакетному режимі, виявляючи понад 285 типів сутностей у 48 мовах. Для організацій з багатомовними навчальними наборами даних — поширений сценарій для європейських ШІ-компаній, що обслуговують кілька мовних ринків — це кросмовне покриття є важливим. Помилка відповідності в одній мові багатомовного навчального набору створює відкритість за Законом про ШІ для всієї системи.

Практичний посібник: анонімізація вашого навчального конвеєра

Крок 1: Перевірте ваші навчальні набори даних

Перед анонімізацією потрібно знати, що у вас є. Запустіть перевірочний прохід виявлення по всіх джерелах навчальних даних:

# Обробка каталогу навчальних документів
curl -X POST https://anonym.legal/api/presidio/analyze \\
  -H "Authorization: Bearer YOUR_API_KEY" \\
  -H "Content-Type: application/json" \\
  -d '{
    "text": "'"$(cat training_document.txt)"'",
    "language": "en"
  }'

Відповідь перераховує всі виявлені сутності з їх типами, позиціями та оцінками достовірності. Об'єднайте по всьому набору даних, щоб зрозуміти відкритість PII до початку виправлення.

Крок 2: Пакетна анонімізація

Для великих навчальних наборів даних використовуйте пакетний ендпойнт для паралельної обробки кількох документів:

import requests
import os
import json
from pathlib import Path

def anonymize_training_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

# Завантаження навчальних документів
training_dir = Path("./training_data")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in training_dir.glob("*.txt")
]

# Анонімізація пакетами по 50
batch_size = 50
for i in range(0, len(docs), batch_size):
    batch = docs[i:i+batch_size]
    results = anonymize_training_batch(batch)
    for result in results:
        output_path = training_dir / "anonymized" / result["id"]
        output_path.write_text(result["text"])
        print(f"Оброблено {result['id']}: видалено {len(result['items'])} сутностей")

Крок 3: Задокументуйте процес

Стаття 10 вимагає задокументованих практик управління даними. Документація вашого процесу анонімізації повинна включати:

  • Модель виявлення та версію, що використовувалася
  • Типи виявлених сутностей та стратегію заміни для кожної
  • Запис кількості видалених сутностей на набір даних
  • Дату анонімізації та версію використаних навчальних даних

Ця документація становить «практики управління даними», що вимагаються статтею 10(2)(a).

Закон про ШІ Колорадо: паралельне зобов'язання США

Закон про ШІ Колорадо набирає чинності 30 червня 2026 року — за п'ять тижнів до дати виконання систем підвищеного ризику Закону про ШІ ЄС. Закон Колорадо накладає аналогічні зобов'язання щодо навчальних даних для «систем ШІ підвищеного ризику» за законодавством Колорадо, зосереджуючись на алгоритмічній дискримінації.

Організації, що діють як в ЄС, так і в Колорадо, стикаються з одночасними дедлайнами відповідності. Підхід анонімізації задовольняє обидва: управління навчальними даними за статтею 10 (ЄС) та заходи запобігання алгоритмічній дискримінації за законом Колорадо. Технічна реалізація ідентична.

Починайте зараз

П'яти місяців достатньо для реалізації анонімізації навчальних даних, якщо робота починається негайно. Цього недостатньо, якщо вона починається в червні.

Послідовність відповідності:

  1. Тижні 1-2: Аудит набору даних — зрозуміти, який PII присутній
  2. Тижні 3-6: Реалізація та тестування конвеєра анонімізації
  3. Тижні 7-10: Документація процесу та правова перевірка
  4. Тижні 11-16: Валідація — перевірити, що анонімізовані набори даних відповідають вимогам якості статті 10
  5. 2 серпня: Дата виконання — відповідне управління навчальними даними впроваджено

API anonym.legal інтегрується в наявні навчальні конвеєри без зміни інфраструктури. Контрольний список відповідності GDPR охоплює вимоги до документації управління даними, що перетинаються між GDPR та статтею 10.

Закон ЄС про ШІ готовий до виконання. Питання для організацій, що будують системи ШІ підвищеного ризику, не в тому, чи потрібна відповідність — а чи будуть вони готові до 2 серпня.

Починайте з контрольного списку відповідності GDPR →

Обмеження та залишкові невизначеності

Анонімізація для відповідності Закону про ШІ — це сфера, що розвивається, зі значними практичними викликами:

Порогові значення анонімізації не визначені: Закон ЄС про ШІ не вказує, який рівень анонімізації є «достатнім». До тих пір, поки Офіс ШІ ЄС не видасть рекомендації або рішення про виконання не прояснять стандарти, організації стикаються з правовою невизначеністю щодо того, чи їхні техніки анонімізації задовольнять регуляторів.

Ризик повторної ідентифікації в навчанні ШІ: Дослідження послідовно показують, що великі мовні моделі можуть запам'ятовувати та відтворювати навчальні дані, включаючи нібито анонімізовані записи. Техніки, що відповідають стандартам анонімізації GDPR, можуть все ще допускати зловмисне вилучення PII з навчених моделей — окремий ризик, що не повністю вирішується попереднньою анонімізацією навчання.

Обмеження синтетичних даних: Генерація синтетичних даних зберігає статистичні розподіли, але може вводити тонкі упередження, відсутні в оригінальних даних, або не фіксувати рідкісні, але важливі граничні випадки. Моделі, навчені виключно на синтетичних даних, можуть гірше виступати в продакшні на реальних розподілах.

Прогалина в інтерпретації статті 10: Формулювання «відповідних технічних заходів» у статті 10 вимагає інтерпретації, і раннє правозастосування ОЗД у різних державах-членах не конвергувало до послідовних стандартів. Юридичні команди повинні уважно стежити за рекомендаціями EDPB та рішеннями ОЗД держав-членів протягом 2026 року.


Джерела:

  • Закон про ШІ ЄС, Регламент (ЄС) 2024/1689, статті 9-17 (зобов'язання систем підвищеного ризику), OJ L 2024/1689
  • Закон про ШІ ЄС, стаття 10 — Дані та управління даними
  • Рекомендації CNIL щодо навчальних даних ШІ, січень 2026
  • Закон про ШІ Колорадо, SB 205, набирає чинності 30 червня 2026 року
  • Часова шкала виконання Закону про ШІ ЄС: заборонені практики 2 лютого 2025 року; системи підвищеного ризику 2 серпня 2026 року

Готові захистити свої дані?

Почніть анонімізувати PII з 285+ типами сутностей на 48 мовах.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.