Odpočítávání začalo
Aktualizováno pro rok 2026
Termín zákona EU o AI je reálný. Pravidla článku 10 platí od 2. srpna 2026. Pokud váš tým buduje nebo provozuje vysoce rizikový AI systém, jednejte nyní. Čas je krátký.
Pokuty jsou vyšší než u GDPR. Maximální pokuta je €35 milionů nebo 7 % celosvětového ročního obratu. GDPR má strop €20 milionů nebo 4 %. Žádný jiný zákon o AI nemá vyšší pokuty.
Které AI systémy jsou vysoce rizikové?
Zákon o AI třídí systémy podle rizika. Vysoce rizikové systémy (příloha III) pokrývají AI používanou v:
- Vzdělávání — přístup do škol nebo hodnocení studentů
- Zaměstnání — screening CV, hodnocení pohovorů, monitoring pracovníků
- Klíčové služby — kreditní scoring, pojišťovnictví, záchranná dispečink
- Vymáhání práva — predikce kriminality, biometrická identifikace
- Zdravotnictví — software zdravotnických prostředků, třídění pacientů
- Infrastruktura — správa energetiky, vody nebo dopravy
- Spravedlnost — nástroje pro právní výzkum, nástroje pro sentencing
Pracujete v některé z těchto oblastí? Článek 10 se vztahuje na vás.
Článek 10: čtyři klíčová pravidla
Článek 10 stanoví pravidla pro datové sady používané vysoce rizikovými AI systémy. Zde jsou čtyři hlavní z nich.
1. Písemná správa dat
Datasets musí dodržovat „vhodné postupy správy a řízení dat.“ Potřebujete písemné kroky pro sběr, kontrolu kvality a průběžný přezkum.
2. Testování zaujatostí
Záznamy musí být zkontrolovány na „možné zaujatosti,“ které by mohly způsobit nespravedlivé výstupy. Je vyžadováno aktivní testování. Vyhýbání se záměrné zaujatosti nestačí.
3. Přesnost a pokrytí
Datasets musí být „relevantní, dostatečně reprezentativní a bez chyb.“ Webové crawly, které přehlíží určité skupiny, mohou tento test nesplnit.
4. Zvláštní typy záznamů
Článek 10(5) je nejpřímějším pravidlem. Když vysoce rizikový systém používá záznamy zvláštní kategorie — zdraví, rasa, náboženství, politika, biometrika — můžete je zpracovávat pouze tehdy, je-li to „přísně nezbytné“ pro kontroly zaujatostí. Musíte také aplikovat „vhodná ochranná opatření.“ Čištění dat je jedním z nejsilnějších ochranných opatření, které můžete použít.
Základní závěr: většina datových sad AI modelů obsahuje osobní záznamy. Článek 10 říká: používejte minimum potřebného, se silnými technickými ochranami.
Viz naši stránku právního souladu a přehled bezpečnosti pro podrobnosti.
Stupně pokut
Zákon EU o AI má tři stupně pokut. Všechny přesahují GDPR pro stejný typ porušení:
| Nařízení | Maximální pokuta | Strop obratu |
|---|---|---|
| GDPR | €20 milionů | 4 % globálního obratu |
| Zákon EU o AI (vysoce rizikové) | €15 milionů | 3 % globálního obratu |
| Zákon EU o AI (zakázané) | €35 milionů | 7 % globálního obratu |
Porušení dat spadají do stupně vysoce rizikových (€15M / 3 %). Pokud regulátor zjistí, že používání osobních záznamů bez ochranných opatření je zakázaným jednáním, platí nejvyšší stupeň.
Skutečné příklady: obrat €500M při 3 % = pokuta €15M. Obrat €5 miliard při 3 % = pokuta €150M. Jde o reálná čísla, ne teorii.
Proč čištění dat tento problém řeší
Řádně vyčištěné záznamy spadají mimo rozsah GDPR. To odstraní většinu zátěže článku 10.
Přísná pravidla — zpracování zvláštních kategorií, kontroly zaujatostí, práva subjektů údajů — platí pouze tehdy, když dataset obsahuje osobní záznamy. Odstraňte je nejprve. Zátěž z velké části zmizí.
CNIL (francouzský orgán pro ochranu dat) to objasnil začátkem roku 2026. Jeho pokyn pro AI říká toto: čištění dat osobních záznamů nepotřebných pro výkon modelu je primárním technickým opatřením pro článek 10.
Nejde o okrajový pohled. Jde o hlavní proud pozice předního AI regulátora EU.
Co čištění dat znamená v praxi
Čištění datových sad AI modelů není totéž jako čištění živých produkčních záznamů. Datové sady modelů mohou obsahovat:
- Dokumenty s PII — smlouvy, e-maily, zprávy, support tickety
- Strukturované záznamy — tabulky zákazníků používané k budování prediktivních modelů
- Označený obsah — obrázky nebo texty s poznámkami obsahujícími osobní data
- Syntetické záznamy — kde generování může stále zachovávat osobní vzory
Musíte detekovat PII ve všech těchto formátech. Přehlédnutí jednoho typu vystavuje celý dataset. Smlouva se smazanými jmény, ale plnými adresami, naučí model propojovat polohu s demografickými vzory.
anonym.legal API zvládá dávkové zpracování pro velké AI datové sady. Detekuje více než 285 typů entit ve 48 jazycích. Pro evropské AI společnosti s vícejazyčnými datovými sadami je mezijazykové pokrytí klíčové. Mezera v jednom jazyce vytváří riziko zákona EU o AI napříč celým systémem.
Pro více informací o detekci entit viz průvodce tokenovým systémem a referenci typů entit.
Praktické kroky: čištění vaší datové sady
Krok 1: nejprve audit
Spusťte detekční průchod před čímkoli dalším. Tím zjistíte, jaké PII je přítomno:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Odpověď uvádí každou detekovanou entitu s jejím typem, pozicí a skóre. Spusťte to napříč všemi soubory, abyste viděli celý rozsah před zahájením.
Krok 2: dávkové čištění
Pro velké datové sady použijte dávkový endpoint pro zpracování mnoha souborů najednou:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Done: {result['id']} — {len(result['items'])} entities removed")
Krok 3: uchovávejte záznamy
Článek 10 vyžaduje písemné záznamy o tom, co jste udělali. Pro každý dataset uchovávejte:
- Použitý detekční model a verzi
- Které typy entit byly nalezeny a jak byl každý nahrazen
- Počty odstraněných entit na dataset
- Datum čištění a použitou verzi datasetu
To splňuje požadavek „postupy správy a řízení dat“ v článku 10(2)(a).
Časté otázky
Poškodí čištění kvalitu modelu?
Ve většině případů ne. Model se učí vzory z textové struktury, ne z osobních detailů. Jména, telefonní čísla a adresy mohou být nahrazeny zástupnými symboly jako [NAME] nebo [PHONE] a model se stále naučí stejné vzory. Mnoho výzkumných týmů zjistilo, že vyčištěné datové sady produkují modely stejné kvality. Klíčem je používat konzistentní zástupné symboly, aby model viděl jasný vzor.
Co když je moje datová sada velmi velká?
Použijte dávkové API. Zpracovává velké objemy paralelně. Stránka ceníku ukazuje plány pro příliš náročné případy použití. Mnoho týmů zpracovává miliony záznamů měsíčně.
Co vícejazyčné datové sady?
API podporuje 48 jazyků. Každý jazyk používá detekční model trénovaný na daném jazyce. To znamená, že němčina, francouzština, španělština, japonština a další jsou všechny pokryty. Viz FAQ pro úplný seznam jazyků. Smíšeně jazykové datové sady jsou také podporovány — v dávkovém požadavku můžete specifikovat jazyk pro každý dokument.
Colorado AI Act: dva termíny
Colorado AI Act vstupuje v platnost 30. června 2026 — pět týdnů před termínem EU. Stanoví podobná pravidla pro „vysoce rizikové AI systémy“ podle státního práva. Hlavní zaměření je zaujatost a diskriminace.
Týmy v EU i v Coloradu čelí dvěma termínům najednou. Čištění vašich datových sad pomáhá splnit oba zákony: článek 10 (EU) a coloradská pravidla proti zaujatosti. Technické kroky jsou stejné.
Jednejte nyní
Pět měsíců je dost času — pokud začnete dnes. Není to dost, pokud počkáte do června.
Praktický časový plán:
- Týdny 1–2: Proveďte audit datových sad — zjistěte, jaké osobní záznamy jsou přítomny
- Týdny 3–6: Vybudujte a otestujte pipeline pro čištění
- Týdny 7–10: Sepište záznamy o správě dat; nechte právní přezkum
- Týdny 11–16: Validujte — potvrďte, že vyčištěné datové sady splňují pravidla kvality článku 10
- 2. srpna: Datum vymáhání — dodržující postupy jsou zavedeny
anonym.legal API se zapojuje do vašeho současného pipeline bez velkých změn. Viz ceník pro objemové plány. FAQ pokrývá běžné otázky k článku 10.
Použijte kontrolní seznam compliance GDPR pro záznamy, které se překrývají mezi GDPR a článkem 10.
Zákon EU o AI je připraven k vymáhání. Bude vaše organizace připravena do 2. srpna?
Začněte s kontrolním seznamem compliance GDPR →
Omezení a otevřené otázky
Čištění dat pro pravidla zákona o AI se stále vyvíjí. Zde jsou klíčové mezery.
Prahy nejsou definovány. Zákon EU o AI neříká, jaká úroveň čištění je „dostatečná.“ Dokud Úřad pro AI EU nevydá pokyny, čelíte právnímu riziku. Možná nebudete vědět, zda vaše metoda uspokojí regulátory.
Riziko re-identifikace přetrvává. Výzkum ukazuje, že velké jazykové modely mohou zapamatovávat a přehrávat obsah ze svých datových sad. Záznamy, které před vývojem modelu prošly standardy čištění, mohou být stále extrahovatelné. Čištění před vývojem tento problém plně neřeší.
Syntetické záznamy mají omezení. Syntetická generace zachovává statistické vzory, ale může přidat jemné zaujatosti nebo přehlédnout vzácné okrajové případy. Modely postavené pouze na syntetickém obsahu mohou na reálných vstupech fungovat špatně.
Článek 10 je stále interpretován. Fráze „vhodná technická opatření“ vyžaduje interpretaci. Ranná práce DPA napříč členskými státy EU se neusadila na jasných standardech. Sledujte pokyny EDPB a rozhodnutí členských států v průběhu roku 2026.
Zdroje
- Zákon EU o AI, nařízení (EU) 2024/1689, články 9–17 (povinnosti vysoce rizikové AI), OJ L 2024/1689
- Zákon EU o AI, článek 10 — Data a správa dat
- Pokyn CNIL pro datové sady AI, leden 2026
- Colorado AI Act, SB 205, účinný od 30. června 2026
- Časový plán zákona EU o AI: zakázané postupy od 2. února 2025; vysoce rizikové systémy od 2. srpna 2026