Обратното броене е започнало
Актуализирано за 2026 г.
Крайният срок на Закона на ЕС за ИИ е реален. Правилата на член 10 се прилагат от 2 август 2026 г. Ако екипът ви изгражда или управлява высокорискова AI система, действайте сега. Времето е малко.
Глобите са по-високи от тези по GDPR. Максималната глоба е 35 милиона евро или 7% от годишния глобален оборот. GDPR ограничава до 20 милиона евро или 4%. Никой друг закон за ИИ няма по-високи глоби.
Кои AI системи са высокорискови?
Законът за ИИ класифицира системите по риск. Высокорисковите системи (Приложение III) обхващат ИИ, използван в:
- Образование — достъп до училище или оценяване на ученици
- Заетост — сортиране на автобиографии, оценяване на интервюта, наблюдение на работниците
- Ключови услуги — кредитен скоринг, застрахователни цени, диспечиране при спешни случаи
- Правоприлагане — прогнозиране на престъпления, биометрична идентификация
- Здравеопазване — софтуер за медицински изделия, триаж на пациенти
- Инфраструктура — управление на енергия, вода или транспорт
- Правосъдие — инструменти за правни изследвания, инструменти за присъди
Работите в някоя от тези области? Член 10 се прилага за вас.
Член 10: четири ключови правила
Член 10 поставя правила за наборите от данни, използвани от высокорискови AI системи. Ето четирите основни.
1. Писмено управление
Наборите от данни трябва да следват "подходящи практики за управление и администриране на данни". Нужни са писмени стъпки за събиране, проверка на качеството и текущ преглед.
2. Тестване за пристрастност
Записите трябва да се проверяват за "възможни пристрастия", които могат да причинят несправедливи резултати. Изисква се активно тестване. Избягването на умишлена пристрастност не е достатъчно.
3. Точност и покритие
Наборите от данни трябва да бъдат "релевантни, достатъчно представителни и без грешки". Уеб претърсвания, пропускащи определени групи, могат да не преминат този тест.
4. Специални типове записи
Член 10(5) е най-прякото правило. Когато высокорискова система използва записи от специални категории — здраве, раса, религия, политика, биометрия — можете да ги обработвате само когато е "строго необходимо" за проверки за пристрастност. Трябва също да прилагате "подходящи гаранции". Изчистването на данни е една от най-силните гаранции, които можете да използвате.
Заключението: повечето набори от данни за AI модели съдържат лични записи. Член 10 казва: използвайте минимума, необходим с силни технически гаранции.
Вижте нашата страница за правно съответствие и преглед на сигурността за подробности.
Нива на санкции
Законът на ЕС за ИИ има три нива на глоби. Всички те надвишават GDPR за същия вид нарушение:
| Регулация | Максимална глоба | Ограничение на оборота |
|---|---|---|
| GDPR | 20 млн. евро | 4% от глобалния оборот |
| Закон на ЕС за ИИ (высокорисков) | 15 млн. евро | 3% от глобалния оборот |
| Закон на ЕС за ИИ (забранен) | 35 млн. евро | 7% от глобалния оборот |
Нарушенията на набори от данни попадат в нивото на высокорисков (15 млн. евро / 3%). Ако регулатор установи, че използването на лични записи без гаранции е забранено действие, се прилага най-горното ниво.
Реални примери: 500 млн. евро оборот при 3% = глоба от 15 млн. евро. 5 млрд. евро оборот при 3% = глоба от 150 млн. евро. Това са реални числа, не теория.
Защо изчистването на данни решава проблема
Правилно изчистените записи попадат извън обхвата на GDPR. Това премахва по-голямата тежест по член 10.
Трудните правила — обработка на специални категории, проверки за пристрастност, права на субектите на данни — се прилагат само когато наборът от данни съдържа лични записи. Премахнете първо тези записи. Тежестта до голяма степен изчезва.
CNIL (френският орган за данни) изясни това в началото на 2026 г. Неговите насоки за ИИ казват: изчистването на лични записи, ненужни за производителността на модела, е основната техническа мярка по член 10.
Това не е периферна гледна точка. Това е основната позиция на водещия AI регулатор на ЕС.
Какво означава изчистването на данни на практика
Изчистването на набори от данни за AI модели не е същото като изчистването на записи в продукционна среда. Наборите от данни за модели могат да съдържат:
- Документи с лични данни — договори, имейли, отчети, тикети за поддръжка
- Структурирани записи — клиентски таблици, използвани за изграждане на предсказателни модели
- Маркирано съдържание — изображения или текст с бележки, включващи лични данни
- Синтетични записи — където генерирането все още може да запази лични модели
Трябва да разпознавате лични данни във всички тези формати. Пропускането на един тип излага целия набор от данни. Договор с премахнати имена, но пълни адреси, все пак ще научи модела да свързва местоположение с демографски модели.
anonym.legal API обработва пакетна обработка за големи AI набори от данни. Разпознава 285+ типа обекти на 48 езика. За европейски AI компании с многоезични набори от данни многоезичното покритие е критично. Пропуск в един език създава риск по Закона на ЕС за ИИ за цялата система.
За повече информация относно разпознаването на обекти вижте ръководството за токен системата и справочника за типове обекти.
Практически стъпки: изчистване на набора от данни
Стъпка 1: Първо одитирайте
Стартирайте преход за разпознаване, преди да изчистите каквото и да е. Това ви казва кои лични данни са налице:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Отговорът изброява всеки разпознат обект с неговия тип, позиция и резултат. Стартирайте това за всичките си файлове, за да видите пълния обхват преди да започнете.
Стъпка 2: Пакетно изчистване
За големи набори от данни използвайте крайната точка за пакетна обработка, за да обработвате много файлове наведнъж:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Готово: {result['id']} -- {len(result['items'])} обекта премахнати")
Стъпка 3: Съхранявайте записи
Член 10 изисква писмени записи за извършеното. За всеки набор от данни съхранявайте:
- Модела за разпознаване и използваната версия
- Кои типове обекти са открити и как всеки е заменен
- Брой на премахнатите обекти на набор от данни
- Датата на изчистване и използваната версия на набора от данни
Това изпълнява изискването за "практики за управление и администриране на данни" в член 10(2)(а).
Чести въпроси
Нарушава ли изчистването качеството на модела?
В повечето случаи — не. Моделът научава модели от структурата на текста, а не от лични детайли. Имена, телефонни номера и адреси могат да бъдат заменени с контейнери като [NAME] или [PHONE] и моделът все пак научава същите модели. Много изследователски екипи са установили, че изчистените набори от данни произвеждат модели с еднакво качество. Ключът е да се използват последователни контейнери, така че моделът да вижда ясен модел.
Какво ако наборът ми от данни е много голям?
Използвайте API за пакетна обработка. Той обработва големи обеми паралелно. Страницата с цени показва планове за случаи на голям обем. Много екипи обработват милиони записи на месец.
Какво ще кажете за набори от данни на езици, различни от английски?
API-то поддържа 48 езика. Всеки език използва модел за разпознаване, тренирван на съответния език. Това означава, че немски, френски, испански, японски и много други са покрити. Вижте FAQ за пълен списък с езици. Многоезичните набори от данни също се поддържат — можете да задавате езика за всеки документ в заявката за пакетна обработка.
Закон за ИИ на Колорадо: два крайни срока
Законът за ИИ на Колорадо влиза в сила на 30 юни 2026 г. — пет седмици преди крайния срок на ЕС. Той поставя подобни правила за "высокорискови AI системи" по щатско право. Основният акцент е върху пристрастието и дискриминацията.
Екипи, намиращи се едновременно в ЕС и Колорадо, са изправени пред два крайни срока наведнъж. Изчистването на наборите от данни помага да се изпълнят и двата закона: член 10 (ЕС) и правилата на Колорадо срещу пристрастия. Техническите стъпки са едни и същи.
Действайте сега
Пет месеца са достатъчно — ако започнете днес. Не са достатъчно, ако изчакате до юни.
Практичен времеви график:
- Седмици 1–2: Одитирайте наборите от данни — разберете кои лични записи са налице
- Седмици 3–6: Изградете и тествайте тръбопровода за изчистване
- Седмици 7–10: Документирайте управленческите записи; получете правен преглед
- Седмици 11–16: Валидирайте — потвърдете, че изчистените набори от данни отговарят на изискванията за качество по член 10
- 2 август: Дата на прилагане — съответстващи практики на място
anonym.legal API се включва в текущия ви тръбопровод без значителни промени. Проверете цените за планове за обем. FAQ отговаря на чести въпроси за член 10.
Използвайте контролния списък за съответствие с GDPR за записи, припокриващи се между GDPR и член 10.
Законът на ЕС за ИИ е готов за прилагане. Ще е ли готова вашата организация до 2 август?
Започнете с контролния списък за съответствие с GDPR
Ограничения и открити въпроси
Изчистването на данни за правилата на Закона за ИИ все още се развива. Ето ключовите пропуски.
Праговете не са определени. Законът на ЕС за ИИ не посочва какво ниво на изчистване е "достатъчно". До издаването на насоки от Службата за ИИ на Европейския съюз се изправяте пред правен риск. Може да не знаете дали методът ви ще удовлетвори регулаторите.
Рискът от повторна идентификация остава. Изследванията показват, че големите езикови модели могат да запомнят и да възпроизвеждат съдържание от своите набори от данни. Записи, преминали стандартите за изчистване преди разработката на модела, все още могат да бъдат извлечени. Изчистването преди разработка не решава напълно проблема.
Синтетичните записи имат ограничения. Синтетичното генериране запазва статистическите модели, но може да добави фини пристрастия или да пропусне редки крайни случаи. Модели, изградени само от синтетично съдържание, може да се представят слабо при реални входни данни.
Член 10 все още се интерпретира. Фразата "подходящи технически мерки" се нуждае от тълкуване. Ранната работа на надзорните органи за защита на данните в страните членки на ЕС не е установила ясни стандарти. Следете насоките на EDPB и решенията на страните членки през 2026 г.
Източници
- Закон на ЕС за ИИ, Регламент (ЕС) 2024/1689, членове 9–17 (задължения за высокорисков ИИ), OJ L 2024/1689
- Закон на ЕС за ИИ, член 10 — Данни и управление на данни
- Насоки на CNIL за набори от данни за ИИ, януари 2026 г.
- Закон за ИИ на Колорадо, SB 205, в сила от 30 юни 2026 г.
- График на Закона на ЕС за ИИ: забранени практики от 2 февруари 2025 г.; высокорискови системи от 2 август 2026 г.