Відлік почався
Графік виконання Закону ЄС про ШІ більше не є абстрактним. Вимоги до систем ШІ високого ризику — включаючи мандат управління навчальними даними статті 10 — застосовуються з 2 серпня 2026 року. Організації, що навчають, налаштовують або розгортають системи ШІ високого ризику і не встановили відповідних практик навчальних даних, мають приблизно п'ять місяців для виправлення.
Штрафи більші, ніж GDPR: до €35 мільйонів або 7% глобального річного обороту, залежно від того, що більше. GDPR обмежений €20 мільйонами або 4%. Закон ЄС про ШІ є найбільш значним регулюванням ШІ у світі, і його штрафи розраховані так, щоб навіть великі технологічні компанії не могли поглинути невідповідність як витрати ведення бізнесу.
Що робить систему ШІ «високого ризику»?
Класифікація ризику Закону про ШІ визначає, які зобов'язання застосовуються. Системи високого ризику (Додаток III) включають ШІ, що використовується в:
- Освіті та професійному навчанні — системи, що визначають доступ до освітніх установ або оцінюють учнів
- Зайнятості — відбір резюме, оцінка співбесід, моніторинг робочої сили
- Основних послугах — оцінка кредитоспроможності, страхові ціни, диспетчеризація служб швидкої допомоги
- Правоохоронній діяльності — прогностична поліцейська робота, кримінальна аналітика, біометрична ідентифікація
- Охороні здоров'я — програмне забезпечення медичних пристроїв, підтримка клінічних рішень, сортування пацієнтів
- Критичній інфраструктурі — системи управління мережами енергетики, водопостачання, транспорту
- Відправленні правосуддя — інструменти правових досліджень, системи рекомендацій вироків
Якщо ваша організація навчає або розгортає ШІ в будь-якій із цих категорій, стаття 10 застосовується до вас.
Стаття 10: що вона насправді вимагає
Стаття 10 Закону ЄС про ШІ встановлює вимоги до наборів даних для навчання, валідації та тестування, що використовуються системами ШІ високого ризику. Ключові вимоги:
1. Практики управління даними
Навчальні набори даних повинні підлягати «відповідним практикам управління даними та управляти ними». Це включає задокументовані процедури збору даних, оцінки якості даних та постійного моніторингу. Практики повинні охоплювати мету, для якої використовуються дані, та категорії зібраних даних.
2. Вивчення на предмет упереджень
Навчальні дані повинні бути перевірені на «можливі упередження», які можуть призвести до дискримінаційних результатів. Ця вимога є операційно значущою: вона мандатує активне тестування на упередженість, а не лише відсутність навмисно дискримінаційного дизайну.
3. Релевантність, репрезентативність та точність
Набори даних повинні бути «релевантними, достатньо репрезентативними та якомога більш вільними від помилок». Це створює зобов'язання щодо якості, що поширюється на методологію збору даних — зручні вибірки або зібрані вебдані, що систематично недоrepresented певні популяції, можуть не відповідати цій вимозі для застосувань підвищеного ризику.
4. Особливі категорії персональних даних
Стаття 10(5) надає найбільш безпосередньо дієве зобов'язання для організацій з наявними наборами даних: коли системи ШІ високого ризику залучають обробку особливих категорій персональних даних (дані про здоров'я, расове або етнічне походження, політичні погляди, релігійні переконання, біометричні дані), ці категорії можуть оброблятися лише коли «суворо необхідно для цілей забезпечення моніторингу, виявлення та виправлення упередженості» та «з урахуванням відповідних гарантій основних прав і інтересів фізичних осіб».
Практичний наслідок: Більшість навчальних наборів даних, що використовуються для систем ШІ підвищеного ризику, містять персональні дані, а багато з них містять особливі категорії. Стаття 10 вимагає, щоб ці дані оброблялися лише в мінімально необхідній мірі та з урахуванням відповідних технічних гарантій — з яких анонімізація є найбільш надійною.
Математика штрафів: чому це перевищує GDPR
Структура штрафів Закону ЄС про ШІ перевищує GDPR для навмисних або необережних порушень:
| Регулювання | Максимальний штраф | Обмеження обороту |
|---|---|---|
| GDPR | €20 мільйонів | 4% глобального обороту |
| Закон про ШІ ЄС (підвищений ризик) | €15 мільйонів | 3% глобального обороту |
| Закон про ШІ ЄС (заборонені практики) | €35 мільйонів | 7% глобального обороту |
Для порушень навчальних даних застосовний рівень — рівень системи підвищеного ризику (€15 млн / 3%). Однак якщо ОЗД визначить, що навчання на персональних даних без адекватних гарантій є забороненою практикою — визначення, яке стає більш правдоподібним у міру розвитку практики правозастосування Закону — застосовуються штрафи за заборонені практики.
Для компанії з річним оборотом €500 млн: 3% = €15 млн. Для компанії з оборотом €5 млрд: 3% = €150 млн. Це не теоретичні максимуми — це фактичний розрахунок, який застосують регулятори.
Чому анонімізація є відповіддю на відповідність
Анонімізація створює фундаментальне правове спрощення: анонімізовані дані виходять за межі сфери застосування GDPR, і відповідно, зменшують поверхню ризику Закону про ШІ для управління навчальними даними.
Найобтяжливіші вимоги статті 10 — обробка особливих категорій, моніторинг упередженості з персональними даними, права суб'єктів даних у навчальних наборах — застосовуються тому, що навчальні дані містять персональні дані. Якщо навчальні дані справді анонімізовані до початку навчання, ці вимоги або усуваються, або суттєво зменшуються.
CNIL (французький орган захисту даних) опублікував рекомендації щодо навчання ШІ на початку 2026 року, прямо заявляючи: «Мінімізація даних перед навчанням — включаючи анонімізацію персональних даних, суворо не потрібних для продуктивності моделі — є основним технічним заходом для відповідності статті 10».
Це не маргінальна інтерпретація. Це основна позиція правозастосування найбільш технічно досвідченого ОЗД ЄС.
Що означає анонімізація для навчальних даних на практиці
Анонімізація навчальних даних — це не те саме, що анонімізація продакшн-даних. Навчальні дані зазвичай складаються з:
- Документів із вбудованим PII — договори, електронні листи, звіти, тікети підтримки, що використовуються як приклади налаштування
- Структурованих записів — таблиці клієнтських даних, що використовуються для навчання прогностичних моделей
- Мічених наборів даних — зображення або текст з анотаціями, що можуть містити персональні ідентифікатори
- Синтетичних даних на основі реальних записів — де процес синтетичної генерації може зберігати ідентифікуючі закономірності
Ефективна анонімізація навчальних даних вимагає виявлення PII у всіх цих форматах та його заміни або маскування до запуску завдання навчання. Виявлення сутностей повинно бути всебічним — модель, навчена на даних, де «Іван Петренко» замінено, але «пацієнт за адресою вул. Дубова, 42, Київ» залишається, навчиться асоціювати закономірності розташування з демографічними передбаченнями.
API anonym.legal обробляє навчальні дані в пакетному режимі, виявляючи понад 285 типів сутностей у 48 мовах. Для організацій з багатомовними навчальними наборами даних — поширений сценарій для європейських ШІ-компаній, що обслуговують кілька мовних ринків — це кросмовне покриття є важливим. Помилка відповідності в одній мові багатомовного навчального набору створює відкритість за Законом про ШІ для всієї системи.
Практичний посібник: анонімізація вашого навчального конвеєра
Крок 1: Перевірте ваші навчальні набори даних
Перед анонімізацією потрібно знати, що у вас є. Запустіть перевірочний прохід виявлення по всіх джерелах навчальних даних:
# Обробка каталогу навчальних документів
curl -X POST https://anonym.legal/api/presidio/analyze \\
-H "Authorization: Bearer YOUR_API_KEY" \\
-H "Content-Type: application/json" \\
-d '{
"text": "'"$(cat training_document.txt)"'",
"language": "en"
}'
Відповідь перераховує всі виявлені сутності з їх типами, позиціями та оцінками достовірності. Об'єднайте по всьому набору даних, щоб зрозуміти відкритість PII до початку виправлення.
Крок 2: Пакетна анонімізація
Для великих навчальних наборів даних використовуйте пакетний ендпойнт для паралельної обробки кількох документів:
import requests
import os
import json
from pathlib import Path
def anonymize_training_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
# Завантаження навчальних документів
training_dir = Path("./training_data")
docs = [
{"id": f.name, "text": f.read_text()}
for f in training_dir.glob("*.txt")
]
# Анонімізація пакетами по 50
batch_size = 50
for i in range(0, len(docs), batch_size):
batch = docs[i:i+batch_size]
results = anonymize_training_batch(batch)
for result in results:
output_path = training_dir / "anonymized" / result["id"]
output_path.write_text(result["text"])
print(f"Оброблено {result['id']}: видалено {len(result['items'])} сутностей")
Крок 3: Задокументуйте процес
Стаття 10 вимагає задокументованих практик управління даними. Документація вашого процесу анонімізації повинна включати:
- Модель виявлення та версію, що використовувалася
- Типи виявлених сутностей та стратегію заміни для кожної
- Запис кількості видалених сутностей на набір даних
- Дату анонімізації та версію використаних навчальних даних
Ця документація становить «практики управління даними», що вимагаються статтею 10(2)(a).
Закон про ШІ Колорадо: паралельне зобов'язання США
Закон про ШІ Колорадо набирає чинності 30 червня 2026 року — за п'ять тижнів до дати виконання систем підвищеного ризику Закону про ШІ ЄС. Закон Колорадо накладає аналогічні зобов'язання щодо навчальних даних для «систем ШІ підвищеного ризику» за законодавством Колорадо, зосереджуючись на алгоритмічній дискримінації.
Організації, що діють як в ЄС, так і в Колорадо, стикаються з одночасними дедлайнами відповідності. Підхід анонімізації задовольняє обидва: управління навчальними даними за статтею 10 (ЄС) та заходи запобігання алгоритмічній дискримінації за законом Колорадо. Технічна реалізація ідентична.
Починайте зараз
П'яти місяців достатньо для реалізації анонімізації навчальних даних, якщо робота починається негайно. Цього недостатньо, якщо вона починається в червні.
Послідовність відповідності:
- Тижні 1-2: Аудит набору даних — зрозуміти, який PII присутній
- Тижні 3-6: Реалізація та тестування конвеєра анонімізації
- Тижні 7-10: Документація процесу та правова перевірка
- Тижні 11-16: Валідація — перевірити, що анонімізовані набори даних відповідають вимогам якості статті 10
- 2 серпня: Дата виконання — відповідне управління навчальними даними впроваджено
API anonym.legal інтегрується в наявні навчальні конвеєри без зміни інфраструктури. Контрольний список відповідності GDPR охоплює вимоги до документації управління даними, що перетинаються між GDPR та статтею 10.
Закон ЄС про ШІ готовий до виконання. Питання для організацій, що будують системи ШІ підвищеного ризику, не в тому, чи потрібна відповідність — а чи будуть вони готові до 2 серпня.
Починайте з контрольного списку відповідності GDPR →
Обмеження та залишкові невизначеності
Анонімізація для відповідності Закону про ШІ — це сфера, що розвивається, зі значними практичними викликами:
Порогові значення анонімізації не визначені: Закон ЄС про ШІ не вказує, який рівень анонімізації є «достатнім». До тих пір, поки Офіс ШІ ЄС не видасть рекомендації або рішення про виконання не прояснять стандарти, організації стикаються з правовою невизначеністю щодо того, чи їхні техніки анонімізації задовольнять регуляторів.
Ризик повторної ідентифікації в навчанні ШІ: Дослідження послідовно показують, що великі мовні моделі можуть запам'ятовувати та відтворювати навчальні дані, включаючи нібито анонімізовані записи. Техніки, що відповідають стандартам анонімізації GDPR, можуть все ще допускати зловмисне вилучення PII з навчених моделей — окремий ризик, що не повністю вирішується попереднньою анонімізацією навчання.
Обмеження синтетичних даних: Генерація синтетичних даних зберігає статистичні розподіли, але може вводити тонкі упередження, відсутні в оригінальних даних, або не фіксувати рідкісні, але важливі граничні випадки. Моделі, навчені виключно на синтетичних даних, можуть гірше виступати в продакшні на реальних розподілах.
Прогалина в інтерпретації статті 10: Формулювання «відповідних технічних заходів» у статті 10 вимагає інтерпретації, і раннє правозастосування ОЗД у різних державах-членах не конвергувало до послідовних стандартів. Юридичні команди повинні уважно стежити за рекомендаціями EDPB та рішеннями ОЗД держав-членів протягом 2026 року.
Джерела:
- Закон про ШІ ЄС, Регламент (ЄС) 2024/1689, статті 9-17 (зобов'язання систем підвищеного ризику), OJ L 2024/1689
- Закон про ШІ ЄС, стаття 10 — Дані та управління даними
- Рекомендації CNIL щодо навчальних даних ШІ, січень 2026
- Закон про ШІ Колорадо, SB 205, набирає чинності 30 червня 2026 року
- Часова шкала виконання Закону про ШІ ЄС: заборонені практики 2 лютого 2025 року; системи підвищеного ризику 2 серпня 2026 року