anonym.legal
Назад към блогаGDPR и съответствие

Закон на ЕС за ИИ, август 2026 г.: Анонимизиране на тренировъчни данни за изпълнение на член 10

Пълното прилагане на Закона на ЕС за ИИ започва от 2 август 2026 г. Санкциите достигат до 35 млн. евро или 7% от глобалния оборот. Член 10 изисква анонимизиране на тренировъчните данни.

March 16, 20269 мин. четене
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Обратното броене е започнало

Актуализирано за 2026 г.

Крайният срок на Закона на ЕС за ИИ е реален. Правилата на член 10 се прилагат от 2 август 2026 г. Ако екипът ви изгражда или управлява высокорискова AI система, действайте сега. Времето е малко.

Глобите са по-високи от тези по GDPR. Максималната глоба е 35 милиона евро или 7% от годишния глобален оборот. GDPR ограничава до 20 милиона евро или 4%. Никой друг закон за ИИ няма по-високи глоби.

Кои AI системи са высокорискови?

Законът за ИИ класифицира системите по риск. Высокорисковите системи (Приложение III) обхващат ИИ, използван в:

  • Образование — достъп до училище или оценяване на ученици
  • Заетост — сортиране на автобиографии, оценяване на интервюта, наблюдение на работниците
  • Ключови услуги — кредитен скоринг, застрахователни цени, диспечиране при спешни случаи
  • Правоприлагане — прогнозиране на престъпления, биометрична идентификация
  • Здравеопазване — софтуер за медицински изделия, триаж на пациенти
  • Инфраструктура — управление на енергия, вода или транспорт
  • Правосъдие — инструменти за правни изследвания, инструменти за присъди

Работите в някоя от тези области? Член 10 се прилага за вас.

Член 10: четири ключови правила

Член 10 поставя правила за наборите от данни, използвани от высокорискови AI системи. Ето четирите основни.

1. Писмено управление

Наборите от данни трябва да следват "подходящи практики за управление и администриране на данни". Нужни са писмени стъпки за събиране, проверка на качеството и текущ преглед.

2. Тестване за пристрастност

Записите трябва да се проверяват за "възможни пристрастия", които могат да причинят несправедливи резултати. Изисква се активно тестване. Избягването на умишлена пристрастност не е достатъчно.

3. Точност и покритие

Наборите от данни трябва да бъдат "релевантни, достатъчно представителни и без грешки". Уеб претърсвания, пропускащи определени групи, могат да не преминат този тест.

4. Специални типове записи

Член 10(5) е най-прякото правило. Когато высокорискова система използва записи от специални категории — здраве, раса, религия, политика, биометрия — можете да ги обработвате само когато е "строго необходимо" за проверки за пристрастност. Трябва също да прилагате "подходящи гаранции". Изчистването на данни е една от най-силните гаранции, които можете да използвате.

Заключението: повечето набори от данни за AI модели съдържат лични записи. Член 10 казва: използвайте минимума, необходим с силни технически гаранции.

Вижте нашата страница за правно съответствие и преглед на сигурността за подробности.

Нива на санкции

Законът на ЕС за ИИ има три нива на глоби. Всички те надвишават GDPR за същия вид нарушение:

РегулацияМаксимална глобаОграничение на оборота
GDPR20 млн. евро4% от глобалния оборот
Закон на ЕС за ИИ (высокорисков)15 млн. евро3% от глобалния оборот
Закон на ЕС за ИИ (забранен)35 млн. евро7% от глобалния оборот

Нарушенията на набори от данни попадат в нивото на высокорисков (15 млн. евро / 3%). Ако регулатор установи, че използването на лични записи без гаранции е забранено действие, се прилага най-горното ниво.

Реални примери: 500 млн. евро оборот при 3% = глоба от 15 млн. евро. 5 млрд. евро оборот при 3% = глоба от 150 млн. евро. Това са реални числа, не теория.

Защо изчистването на данни решава проблема

Правилно изчистените записи попадат извън обхвата на GDPR. Това премахва по-голямата тежест по член 10.

Трудните правила — обработка на специални категории, проверки за пристрастност, права на субектите на данни — се прилагат само когато наборът от данни съдържа лични записи. Премахнете първо тези записи. Тежестта до голяма степен изчезва.

CNIL (френският орган за данни) изясни това в началото на 2026 г. Неговите насоки за ИИ казват: изчистването на лични записи, ненужни за производителността на модела, е основната техническа мярка по член 10.

Това не е периферна гледна точка. Това е основната позиция на водещия AI регулатор на ЕС.

Какво означава изчистването на данни на практика

Изчистването на набори от данни за AI модели не е същото като изчистването на записи в продукционна среда. Наборите от данни за модели могат да съдържат:

  • Документи с лични данни — договори, имейли, отчети, тикети за поддръжка
  • Структурирани записи — клиентски таблици, използвани за изграждане на предсказателни модели
  • Маркирано съдържание — изображения или текст с бележки, включващи лични данни
  • Синтетични записи — където генерирането все още може да запази лични модели

Трябва да разпознавате лични данни във всички тези формати. Пропускането на един тип излага целия набор от данни. Договор с премахнати имена, но пълни адреси, все пак ще научи модела да свързва местоположение с демографски модели.

anonym.legal API обработва пакетна обработка за големи AI набори от данни. Разпознава 285+ типа обекти на 48 езика. За европейски AI компании с многоезични набори от данни многоезичното покритие е критично. Пропуск в един език създава риск по Закона на ЕС за ИИ за цялата система.

За повече информация относно разпознаването на обекти вижте ръководството за токен системата и справочника за типове обекти.

Практически стъпки: изчистване на набора от данни

Стъпка 1: Първо одитирайте

Стартирайте преход за разпознаване, преди да изчистите каквото и да е. Това ви казва кои лични данни са налице:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Отговорът изброява всеки разпознат обект с неговия тип, позиция и резултат. Стартирайте това за всичките си файлове, за да видите пълния обхват преди да започнете.

Стъпка 2: Пакетно изчистване

За големи набори от данни използвайте крайната точка за пакетна обработка, за да обработвате много файлове наведнъж:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Готово: {result['id']} -- {len(result['items'])} обекта премахнати")

Стъпка 3: Съхранявайте записи

Член 10 изисква писмени записи за извършеното. За всеки набор от данни съхранявайте:

  • Модела за разпознаване и използваната версия
  • Кои типове обекти са открити и как всеки е заменен
  • Брой на премахнатите обекти на набор от данни
  • Датата на изчистване и използваната версия на набора от данни

Това изпълнява изискването за "практики за управление и администриране на данни" в член 10(2)(а).

Чести въпроси

Нарушава ли изчистването качеството на модела?

В повечето случаи — не. Моделът научава модели от структурата на текста, а не от лични детайли. Имена, телефонни номера и адреси могат да бъдат заменени с контейнери като [NAME] или [PHONE] и моделът все пак научава същите модели. Много изследователски екипи са установили, че изчистените набори от данни произвеждат модели с еднакво качество. Ключът е да се използват последователни контейнери, така че моделът да вижда ясен модел.

Какво ако наборът ми от данни е много голям?

Използвайте API за пакетна обработка. Той обработва големи обеми паралелно. Страницата с цени показва планове за случаи на голям обем. Много екипи обработват милиони записи на месец.

Какво ще кажете за набори от данни на езици, различни от английски?

API-то поддържа 48 езика. Всеки език използва модел за разпознаване, тренирван на съответния език. Това означава, че немски, френски, испански, японски и много други са покрити. Вижте FAQ за пълен списък с езици. Многоезичните набори от данни също се поддържат — можете да задавате езика за всеки документ в заявката за пакетна обработка.

Закон за ИИ на Колорадо: два крайни срока

Законът за ИИ на Колорадо влиза в сила на 30 юни 2026 г. — пет седмици преди крайния срок на ЕС. Той поставя подобни правила за "высокорискови AI системи" по щатско право. Основният акцент е върху пристрастието и дискриминацията.

Екипи, намиращи се едновременно в ЕС и Колорадо, са изправени пред два крайни срока наведнъж. Изчистването на наборите от данни помага да се изпълнят и двата закона: член 10 (ЕС) и правилата на Колорадо срещу пристрастия. Техническите стъпки са едни и същи.

Действайте сега

Пет месеца са достатъчно — ако започнете днес. Не са достатъчно, ако изчакате до юни.

Практичен времеви график:

  1. Седмици 1–2: Одитирайте наборите от данни — разберете кои лични записи са налице
  2. Седмици 3–6: Изградете и тествайте тръбопровода за изчистване
  3. Седмици 7–10: Документирайте управленческите записи; получете правен преглед
  4. Седмици 11–16: Валидирайте — потвърдете, че изчистените набори от данни отговарят на изискванията за качество по член 10
  5. 2 август: Дата на прилагане — съответстващи практики на място

anonym.legal API се включва в текущия ви тръбопровод без значителни промени. Проверете цените за планове за обем. FAQ отговаря на чести въпроси за член 10.

Използвайте контролния списък за съответствие с GDPR за записи, припокриващи се между GDPR и член 10.

Законът на ЕС за ИИ е готов за прилагане. Ще е ли готова вашата организация до 2 август?

Започнете с контролния списък за съответствие с GDPR

Ограничения и открити въпроси

Изчистването на данни за правилата на Закона за ИИ все още се развива. Ето ключовите пропуски.

Праговете не са определени. Законът на ЕС за ИИ не посочва какво ниво на изчистване е "достатъчно". До издаването на насоки от Службата за ИИ на Европейския съюз се изправяте пред правен риск. Може да не знаете дали методът ви ще удовлетвори регулаторите.

Рискът от повторна идентификация остава. Изследванията показват, че големите езикови модели могат да запомнят и да възпроизвеждат съдържание от своите набори от данни. Записи, преминали стандартите за изчистване преди разработката на модела, все още могат да бъдат извлечени. Изчистването преди разработка не решава напълно проблема.

Синтетичните записи имат ограничения. Синтетичното генериране запазва статистическите модели, но може да добави фини пристрастия или да пропусне редки крайни случаи. Модели, изградени само от синтетично съдържание, може да се представят слабо при реални входни данни.

Член 10 все още се интерпретира. Фразата "подходящи технически мерки" се нуждае от тълкуване. Ранната работа на надзорните органи за защита на данните в страните членки на ЕС не е установила ясни стандарти. Следете насоките на EDPB и решенията на страните членки през 2026 г.

Източници

  • Закон на ЕС за ИИ, Регламент (ЕС) 2024/1689, членове 9–17 (задължения за высокорисков ИИ), OJ L 2024/1689
  • Закон на ЕС за ИИ, член 10 — Данни и управление на данни
  • Насоки на CNIL за набори от данни за ИИ, януари 2026 г.
  • Закон за ИИ на Колорадо, SB 205, в сила от 30 юни 2026 г.
  • График на Закона на ЕС за ИИ: забранени практики от 2 февруари 2025 г.; высокорискови системи от 2 август 2026 г.

Готови ли сте да защитите данните си?

Започнете анонимизация на PII с 285+ типа субекти на 48 езика.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.