Odpočítávání začalo

Aktualizováno pro rok 2026

Termín zákona EU o AI je reálný. Pravidla článku 10 platí od 2. srpna 2026. Pokud váš tým buduje nebo provozuje vysoce rizikový AI systém, jednejte nyní. Čas je krátký.

Pokuty jsou vyšší než u GDPR. Maximální pokuta je €35 milionů nebo 7 % celosvětového ročního obratu. GDPR má strop €20 milionů nebo 4 %. Žádný jiný zákon o AI nemá vyšší pokuty.

Které AI systémy jsou vysoce rizikové?

Zákon o AI třídí systémy podle rizika. Vysoce rizikové systémy (příloha III) pokrývají AI používanou v:

Vzdělávání — přístup do škol nebo hodnocení studentů
Zaměstnání — screening CV, hodnocení pohovorů, monitoring pracovníků
Klíčové služby — kreditní scoring, pojišťovnictví, záchranná dispečink
Vymáhání práva — predikce kriminality, biometrická identifikace
Zdravotnictví — software zdravotnických prostředků, třídění pacientů
Infrastruktura — správa energetiky, vody nebo dopravy
Spravedlnost — nástroje pro právní výzkum, nástroje pro sentencing

Pracujete v některé z těchto oblastí? Článek 10 se vztahuje na vás.

Článek 10: čtyři klíčová pravidla

Článek 10 stanoví pravidla pro datové sady používané vysoce rizikovými AI systémy. Zde jsou čtyři hlavní z nich.

1. Písemná správa dat

Datasets musí dodržovat „vhodné postupy správy a řízení dat.“ Potřebujete písemné kroky pro sběr, kontrolu kvality a průběžný přezkum.

2. Testování zaujatostí

Záznamy musí být zkontrolovány na „možné zaujatosti,“ které by mohly způsobit nespravedlivé výstupy. Je vyžadováno aktivní testování. Vyhýbání se záměrné zaujatosti nestačí.

3. Přesnost a pokrytí

Datasets musí být „relevantní, dostatečně reprezentativní a bez chyb.“ Webové crawly, které přehlíží určité skupiny, mohou tento test nesplnit.

4. Zvláštní typy záznamů

Článek 10(5) je nejpřímějším pravidlem. Když vysoce rizikový systém používá záznamy zvláštní kategorie — zdraví, rasa, náboženství, politika, biometrika — můžete je zpracovávat pouze tehdy, je-li to „přísně nezbytné“ pro kontroly zaujatostí. Musíte také aplikovat „vhodná ochranná opatření.“ Čištění dat je jedním z nejsilnějších ochranných opatření, které můžete použít.

Základní závěr: většina datových sad AI modelů obsahuje osobní záznamy. Článek 10 říká: používejte minimum potřebného, se silnými technickými ochranami.

Viz naši stránku právního souladu a přehled bezpečnosti pro podrobnosti.

Stupně pokut

Zákon EU o AI má tři stupně pokut. Všechny přesahují GDPR pro stejný typ porušení:

Nařízení	Maximální pokuta	Strop obratu
GDPR	€20 milionů	4 % globálního obratu
Zákon EU o AI (vysoce rizikové)	€15 milionů	3 % globálního obratu
Zákon EU o AI (zakázané)	€35 milionů	7 % globálního obratu

Porušení dat spadají do stupně vysoce rizikových (€15M / 3 %). Pokud regulátor zjistí, že používání osobních záznamů bez ochranných opatření je zakázaným jednáním, platí nejvyšší stupeň.

Skutečné příklady: obrat €500M při 3 % = pokuta €15M. Obrat €5 miliard při 3 % = pokuta €150M. Jde o reálná čísla, ne teorii.

Proč čištění dat tento problém řeší

Řádně vyčištěné záznamy spadají mimo rozsah GDPR. To odstraní většinu zátěže článku 10.

Přísná pravidla — zpracování zvláštních kategorií, kontroly zaujatostí, práva subjektů údajů — platí pouze tehdy, když dataset obsahuje osobní záznamy. Odstraňte je nejprve. Zátěž z velké části zmizí.

CNIL (francouzský orgán pro ochranu dat) to objasnil začátkem roku 2026. Jeho pokyn pro AI říká toto: čištění dat osobních záznamů nepotřebných pro výkon modelu je primárním technickým opatřením pro článek 10.

Nejde o okrajový pohled. Jde o hlavní proud pozice předního AI regulátora EU.

Co čištění dat znamená v praxi

Čištění datových sad AI modelů není totéž jako čištění živých produkčních záznamů. Datové sady modelů mohou obsahovat:

Dokumenty s PII — smlouvy, e-maily, zprávy, support tickety
Strukturované záznamy — tabulky zákazníků používané k budování prediktivních modelů
Označený obsah — obrázky nebo texty s poznámkami obsahujícími osobní data
Syntetické záznamy — kde generování může stále zachovávat osobní vzory

Musíte detekovat PII ve všech těchto formátech. Přehlédnutí jednoho typu vystavuje celý dataset. Smlouva se smazanými jmény, ale plnými adresami, naučí model propojovat polohu s demografickými vzory.

anonym.legal API zvládá dávkové zpracování pro velké AI datové sady. Detekuje více než 285 typů entit ve 48 jazycích. Pro evropské AI společnosti s vícejazyčnými datovými sadami je mezijazykové pokrytí klíčové. Mezera v jednom jazyce vytváří riziko zákona EU o AI napříč celým systémem.

Pro více informací o detekci entit viz průvodce tokenovým systémem a referenci typů entit.

Praktické kroky: čištění vaší datové sady

Krok 1: nejprve audit

Spusťte detekční průchod před čímkoli dalším. Tím zjistíte, jaké PII je přítomno:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Odpověď uvádí každou detekovanou entitu s jejím typem, pozicí a skóre. Spusťte to napříč všemi soubory, abyste viděli celý rozsah před zahájením.

Krok 2: dávkové čištění

Pro velké datové sady použijte dávkový endpoint pro zpracování mnoha souborů najednou:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Done: {result['id']} — {len(result['items'])} entities removed")

Krok 3: uchovávejte záznamy

Článek 10 vyžaduje písemné záznamy o tom, co jste udělali. Pro každý dataset uchovávejte:

Použitý detekční model a verzi
Které typy entit byly nalezeny a jak byl každý nahrazen
Počty odstraněných entit na dataset
Datum čištění a použitou verzi datasetu

To splňuje požadavek „postupy správy a řízení dat“ v článku 10(2)(a).

Časté otázky

Poškodí čištění kvalitu modelu?

Ve většině případů ne. Model se učí vzory z textové struktury, ne z osobních detailů. Jména, telefonní čísla a adresy mohou být nahrazeny zástupnými symboly jako [NAME] nebo [PHONE] a model se stále naučí stejné vzory. Mnoho výzkumných týmů zjistilo, že vyčištěné datové sady produkují modely stejné kvality. Klíčem je používat konzistentní zástupné symboly, aby model viděl jasný vzor.

Co když je moje datová sada velmi velká?

Použijte dávkové API. Zpracovává velké objemy paralelně. Stránka ceníku ukazuje plány pro příliš náročné případy použití. Mnoho týmů zpracovává miliony záznamů měsíčně.

Co vícejazyčné datové sady?

API podporuje 48 jazyků. Každý jazyk používá detekční model trénovaný na daném jazyce. To znamená, že němčina, francouzština, španělština, japonština a další jsou všechny pokryty. Viz FAQ pro úplný seznam jazyků. Smíšeně jazykové datové sady jsou také podporovány — v dávkovém požadavku můžete specifikovat jazyk pro každý dokument.

Colorado AI Act: dva termíny

Colorado AI Act vstupuje v platnost 30. června 2026 — pět týdnů před termínem EU. Stanoví podobná pravidla pro „vysoce rizikové AI systémy“ podle státního práva. Hlavní zaměření je zaujatost a diskriminace.

Týmy v EU i v Coloradu čelí dvěma termínům najednou. Čištění vašich datových sad pomáhá splnit oba zákony: článek 10 (EU) a coloradská pravidla proti zaujatosti. Technické kroky jsou stejné.

Jednejte nyní

Pět měsíců je dost času — pokud začnete dnes. Není to dost, pokud počkáte do června.

Praktický časový plán:

Týdny 1–2: Proveďte audit datových sad — zjistěte, jaké osobní záznamy jsou přítomny
Týdny 3–6: Vybudujte a otestujte pipeline pro čištění
Týdny 7–10: Sepište záznamy o správě dat; nechte právní přezkum
Týdny 11–16: Validujte — potvrďte, že vyčištěné datové sady splňují pravidla kvality článku 10
2. srpna: Datum vymáhání — dodržující postupy jsou zavedeny

anonym.legal API se zapojuje do vašeho současného pipeline bez velkých změn. Viz ceník pro objemové plány. FAQ pokrývá běžné otázky k článku 10.

Použijte kontrolní seznam compliance GDPR pro záznamy, které se překrývají mezi GDPR a článkem 10.

Zákon EU o AI je připraven k vymáhání. Bude vaše organizace připravena do 2. srpna?

Začněte s kontrolním seznamem compliance GDPR →

Omezení a otevřené otázky

Čištění dat pro pravidla zákona o AI se stále vyvíjí. Zde jsou klíčové mezery.

Prahy nejsou definovány. Zákon EU o AI neříká, jaká úroveň čištění je „dostatečná.“ Dokud Úřad pro AI EU nevydá pokyny, čelíte právnímu riziku. Možná nebudete vědět, zda vaše metoda uspokojí regulátory.

Riziko re-identifikace přetrvává. Výzkum ukazuje, že velké jazykové modely mohou zapamatovávat a přehrávat obsah ze svých datových sad. Záznamy, které před vývojem modelu prošly standardy čištění, mohou být stále extrahovatelné. Čištění před vývojem tento problém plně neřeší.

Syntetické záznamy mají omezení. Syntetická generace zachovává statistické vzory, ale může přidat jemné zaujatosti nebo přehlédnout vzácné okrajové případy. Modely postavené pouze na syntetickém obsahu mohou na reálných vstupech fungovat špatně.

Článek 10 je stále interpretován. Fráze „vhodná technická opatření“ vyžaduje interpretaci. Ranná práce DPA napříč členskými státy EU se neusadila na jasných standardech. Sledujte pokyny EDPB a rozhodnutí členských států v průběhu roku 2026.

Zdroje

Zákon EU o AI, nařízení (EU) 2024/1689, články 9–17 (povinnosti vysoce rizikové AI), OJ L 2024/1689
Zákon EU o AI, článek 10 — Data a správa dat
Pokyn CNIL pro datové sady AI, leden 2026
Colorado AI Act, SB 205, účinný od 30. června 2026
Časový plán zákona EU o AI: zakázané postupy od 2. února 2025; vysoce rizikové systémy od 2. srpna 2026

Zákon EU o AI srpen 2026: anonymizace trénovacích dat pro splnění článku 10

Odpočítávání začalo

Které AI systémy jsou vysoce rizikové?

Článek 10: čtyři klíčová pravidla

Stupně pokut

Proč čištění dat tento problém řeší

Co čištění dat znamená v praxi

Praktické kroky: čištění vaší datové sady

Časté otázky

Colorado AI Act: dva termíny

Jednejte nyní

Omezení a otevřené otázky

Zdroje

Související články

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Připraveni chránit svá data?

Zákon EU o AI srpen 2026: anonymizace trénovacích dat pro splnění článku 10

Odpočítávání začalo

Které AI systémy jsou vysoce rizikové?

Článek 10: čtyři klíčová pravidla

Stupně pokut

Proč čištění dat tento problém řeší

Co čištění dat znamená v praxi

Praktické kroky: čištění vaší datové sady

Časté otázky

Colorado AI Act: dva termíny

Jednejte nyní

Omezení a otevřené otázky

Zdroje

Související články

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Připraveni chránit svá data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow