Zpět na blogGDPR a shoda

Zákon EU o AI srpen 2026: anonymizace trénovacích dat pro splnění článku 10

Plné vymáhání zákona EU o AI začíná 2. srpna 2026. Pokuty až €35 milionů nebo 7 % celosvětového obratu. Článek 10 vyžaduje anonymizaci trénovacích dat.

March 16, 20269 min čtení
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Odpočítávání začalo

Aktualizováno pro rok 2026

Termín zákona EU o AI je reálný. Pravidla článku 10 platí od 2. srpna 2026. Pokud váš tým buduje nebo provozuje vysoce rizikový AI systém, jednejte nyní. Čas je krátký.

Pokuty jsou vyšší než u GDPR. Maximální pokuta je €35 milionů nebo 7 % celosvětového ročního obratu. GDPR má strop €20 milionů nebo 4 %. Žádný jiný zákon o AI nemá vyšší pokuty.

Které AI systémy jsou vysoce rizikové?

Zákon o AI třídí systémy podle rizika. Vysoce rizikové systémy (příloha III) pokrývají AI používanou v:

  • Vzdělávání — přístup do škol nebo hodnocení studentů
  • Zaměstnání — screening CV, hodnocení pohovorů, monitoring pracovníků
  • Klíčové služby — kreditní scoring, pojišťovnictví, záchranná dispečink
  • Vymáhání práva — predikce kriminality, biometrická identifikace
  • Zdravotnictví — software zdravotnických prostředků, třídění pacientů
  • Infrastruktura — správa energetiky, vody nebo dopravy
  • Spravedlnost — nástroje pro právní výzkum, nástroje pro sentencing

Pracujete v některé z těchto oblastí? Článek 10 se vztahuje na vás.

Článek 10: čtyři klíčová pravidla

Článek 10 stanoví pravidla pro datové sady používané vysoce rizikovými AI systémy. Zde jsou čtyři hlavní z nich.

1. Písemná správa dat

Datasets musí dodržovat „vhodné postupy správy a řízení dat.“ Potřebujete písemné kroky pro sběr, kontrolu kvality a průběžný přezkum.

2. Testování zaujatostí

Záznamy musí být zkontrolovány na „možné zaujatosti,“ které by mohly způsobit nespravedlivé výstupy. Je vyžadováno aktivní testování. Vyhýbání se záměrné zaujatosti nestačí.

3. Přesnost a pokrytí

Datasets musí být „relevantní, dostatečně reprezentativní a bez chyb.“ Webové crawly, které přehlíží určité skupiny, mohou tento test nesplnit.

4. Zvláštní typy záznamů

Článek 10(5) je nejpřímějším pravidlem. Když vysoce rizikový systém používá záznamy zvláštní kategorie — zdraví, rasa, náboženství, politika, biometrika — můžete je zpracovávat pouze tehdy, je-li to „přísně nezbytné“ pro kontroly zaujatostí. Musíte také aplikovat „vhodná ochranná opatření.“ Čištění dat je jedním z nejsilnějších ochranných opatření, které můžete použít.

Základní závěr: většina datových sad AI modelů obsahuje osobní záznamy. Článek 10 říká: používejte minimum potřebného, se silnými technickými ochranami.

Viz naši stránku právního souladu a přehled bezpečnosti pro podrobnosti.

Stupně pokut

Zákon EU o AI má tři stupně pokut. Všechny přesahují GDPR pro stejný typ porušení:

NařízeníMaximální pokutaStrop obratu
GDPR€20 milionů4 % globálního obratu
Zákon EU o AI (vysoce rizikové)€15 milionů3 % globálního obratu
Zákon EU o AI (zakázané)€35 milionů7 % globálního obratu

Porušení dat spadají do stupně vysoce rizikových (€15M / 3 %). Pokud regulátor zjistí, že používání osobních záznamů bez ochranných opatření je zakázaným jednáním, platí nejvyšší stupeň.

Skutečné příklady: obrat €500M při 3 % = pokuta €15M. Obrat €5 miliard při 3 % = pokuta €150M. Jde o reálná čísla, ne teorii.

Proč čištění dat tento problém řeší

Řádně vyčištěné záznamy spadají mimo rozsah GDPR. To odstraní většinu zátěže článku 10.

Přísná pravidla — zpracování zvláštních kategorií, kontroly zaujatostí, práva subjektů údajů — platí pouze tehdy, když dataset obsahuje osobní záznamy. Odstraňte je nejprve. Zátěž z velké části zmizí.

CNIL (francouzský orgán pro ochranu dat) to objasnil začátkem roku 2026. Jeho pokyn pro AI říká toto: čištění dat osobních záznamů nepotřebných pro výkon modelu je primárním technickým opatřením pro článek 10.

Nejde o okrajový pohled. Jde o hlavní proud pozice předního AI regulátora EU.

Co čištění dat znamená v praxi

Čištění datových sad AI modelů není totéž jako čištění živých produkčních záznamů. Datové sady modelů mohou obsahovat:

  • Dokumenty s PII — smlouvy, e-maily, zprávy, support tickety
  • Strukturované záznamy — tabulky zákazníků používané k budování prediktivních modelů
  • Označený obsah — obrázky nebo texty s poznámkami obsahujícími osobní data
  • Syntetické záznamy — kde generování může stále zachovávat osobní vzory

Musíte detekovat PII ve všech těchto formátech. Přehlédnutí jednoho typu vystavuje celý dataset. Smlouva se smazanými jmény, ale plnými adresami, naučí model propojovat polohu s demografickými vzory.

anonym.legal API zvládá dávkové zpracování pro velké AI datové sady. Detekuje více než 285 typů entit ve 48 jazycích. Pro evropské AI společnosti s vícejazyčnými datovými sadami je mezijazykové pokrytí klíčové. Mezera v jednom jazyce vytváří riziko zákona EU o AI napříč celým systémem.

Pro více informací o detekci entit viz průvodce tokenovým systémem a referenci typů entit.

Praktické kroky: čištění vaší datové sady

Krok 1: nejprve audit

Spusťte detekční průchod před čímkoli dalším. Tím zjistíte, jaké PII je přítomno:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Odpověď uvádí každou detekovanou entitu s jejím typem, pozicí a skóre. Spusťte to napříč všemi soubory, abyste viděli celý rozsah před zahájením.

Krok 2: dávkové čištění

Pro velké datové sady použijte dávkový endpoint pro zpracování mnoha souborů najednou:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Done: {result['id']} — {len(result['items'])} entities removed")

Krok 3: uchovávejte záznamy

Článek 10 vyžaduje písemné záznamy o tom, co jste udělali. Pro každý dataset uchovávejte:

  • Použitý detekční model a verzi
  • Které typy entit byly nalezeny a jak byl každý nahrazen
  • Počty odstraněných entit na dataset
  • Datum čištění a použitou verzi datasetu

To splňuje požadavek „postupy správy a řízení dat“ v článku 10(2)(a).

Časté otázky

Poškodí čištění kvalitu modelu?

Ve většině případů ne. Model se učí vzory z textové struktury, ne z osobních detailů. Jména, telefonní čísla a adresy mohou být nahrazeny zástupnými symboly jako [NAME] nebo [PHONE] a model se stále naučí stejné vzory. Mnoho výzkumných týmů zjistilo, že vyčištěné datové sady produkují modely stejné kvality. Klíčem je používat konzistentní zástupné symboly, aby model viděl jasný vzor.

Co když je moje datová sada velmi velká?

Použijte dávkové API. Zpracovává velké objemy paralelně. Stránka ceníku ukazuje plány pro příliš náročné případy použití. Mnoho týmů zpracovává miliony záznamů měsíčně.

Co vícejazyčné datové sady?

API podporuje 48 jazyků. Každý jazyk používá detekční model trénovaný na daném jazyce. To znamená, že němčina, francouzština, španělština, japonština a další jsou všechny pokryty. Viz FAQ pro úplný seznam jazyků. Smíšeně jazykové datové sady jsou také podporovány — v dávkovém požadavku můžete specifikovat jazyk pro každý dokument.

Colorado AI Act: dva termíny

Colorado AI Act vstupuje v platnost 30. června 2026 — pět týdnů před termínem EU. Stanoví podobná pravidla pro „vysoce rizikové AI systémy“ podle státního práva. Hlavní zaměření je zaujatost a diskriminace.

Týmy v EU i v Coloradu čelí dvěma termínům najednou. Čištění vašich datových sad pomáhá splnit oba zákony: článek 10 (EU) a coloradská pravidla proti zaujatosti. Technické kroky jsou stejné.

Jednejte nyní

Pět měsíců je dost času — pokud začnete dnes. Není to dost, pokud počkáte do června.

Praktický časový plán:

  1. Týdny 1–2: Proveďte audit datových sad — zjistěte, jaké osobní záznamy jsou přítomny
  2. Týdny 3–6: Vybudujte a otestujte pipeline pro čištění
  3. Týdny 7–10: Sepište záznamy o správě dat; nechte právní přezkum
  4. Týdny 11–16: Validujte — potvrďte, že vyčištěné datové sady splňují pravidla kvality článku 10
  5. 2. srpna: Datum vymáhání — dodržující postupy jsou zavedeny

anonym.legal API se zapojuje do vašeho současného pipeline bez velkých změn. Viz ceník pro objemové plány. FAQ pokrývá běžné otázky k článku 10.

Použijte kontrolní seznam compliance GDPR pro záznamy, které se překrývají mezi GDPR a článkem 10.

Zákon EU o AI je připraven k vymáhání. Bude vaše organizace připravena do 2. srpna?

Začněte s kontrolním seznamem compliance GDPR →

Omezení a otevřené otázky

Čištění dat pro pravidla zákona o AI se stále vyvíjí. Zde jsou klíčové mezery.

Prahy nejsou definovány. Zákon EU o AI neříká, jaká úroveň čištění je „dostatečná.“ Dokud Úřad pro AI EU nevydá pokyny, čelíte právnímu riziku. Možná nebudete vědět, zda vaše metoda uspokojí regulátory.

Riziko re-identifikace přetrvává. Výzkum ukazuje, že velké jazykové modely mohou zapamatovávat a přehrávat obsah ze svých datových sad. Záznamy, které před vývojem modelu prošly standardy čištění, mohou být stále extrahovatelné. Čištění před vývojem tento problém plně neřeší.

Syntetické záznamy mají omezení. Syntetická generace zachovává statistické vzory, ale může přidat jemné zaujatosti nebo přehlédnout vzácné okrajové případy. Modely postavené pouze na syntetickém obsahu mohou na reálných vstupech fungovat špatně.

Článek 10 je stále interpretován. Fráze „vhodná technická opatření“ vyžaduje interpretaci. Ranná práce DPA napříč členskými státy EU se neusadila na jasných standardech. Sledujte pokyny EDPB a rozhodnutí členských států v průběhu roku 2026.

Zdroje

  • Zákon EU o AI, nařízení (EU) 2024/1689, články 9–17 (povinnosti vysoce rizikové AI), OJ L 2024/1689
  • Zákon EU o AI, článek 10 — Data a správa dat
  • Pokyn CNIL pro datové sady AI, leden 2026
  • Colorado AI Act, SB 205, účinný od 30. června 2026
  • Časový plán zákona EU o AI: zakázané postupy od 2. února 2025; vysoce rizikové systémy od 2. srpna 2026

Připraveni chránit svá data?

Začněte anonymizovat PII s více než 285 typy entit ve 48 jazycích.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.