Späť na blogGDPR a Dodržiavanie

EU AI Act august 2026: Anonymizacia trenovacich dat pre splnenie Clanku 10

Plne presadzovanie EU AI Act zacina 2. augusta 2026. Pokuty az 35 milionov eur alebo 7 % globalneho obratu. Clanok 10 vyzaduje anonymizaciu trenovacich dat.

March 16, 20269 min čítania
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Odpocitavanie sa zacalo

Aktualizované pre rok 2026

Termín EU AI Act je reálny. Pravidlá Článku 10 sa vzťahujú od 2. augusta 2026. Ak váš tím buduje alebo prevádzkuje vysoko-rizikový AI systém, konajte teraz. Čas je krátky.

Pokuty sú vyššie ako pri GDPR. Maximálna pokuta je 35 miliónov eur alebo 7 % globálneho ročného obratu. GDPR má strop 20 miliónov eur alebo 4 %. Žiadny iný zákon o AI nemá vyššie pokuty.

Ktoré AI systémy sú vysoko-rizikové?

AI Act triedi systémy podľa rizika. Vysoko-rizikové systémy (Príloha III) pokrývajú AI používanú v:

  • Vzdelávaní — prístup do školy alebo hodnotenie študentov
  • Zamestnanosti — skríning životopisov, hodnotenie pohovorov, monitorovanie pracovníkov
  • Kľúčových službách — úverové hodnotenie, poistné ceny, dispečing záchranných služieb
  • Presadzovaní práva — predikcia kriminality, biometrická identifikácia
  • Zdravotnej starostlivosti — softvér zdravotníckych zariadení, triage pacientov
  • Infraštruktúre — správa energie, vody alebo dopravy
  • Spravodlivosti — nástroje na právny výskum, nástroje na vymerávanie trestov

Pracujete v niektorej z týchto oblastí? Článok 10 sa vzťahuje na vás.

Článok 10: Štyri kľúčové pravidlá

Článok 10 stanovuje pravidlá pre datasety používané vysoko-rizikovými AI systémami. Tu sú štyri hlavné.

1. Písomné riadenie

Datasety musia dodržiavať "primerané postupy správy a riadenia dát". Potrebujete písomné kroky pre zber, kontroly kvality a priebežnú kontrolu.

2. Testovanie zaujatosti

Záznamy musia byť skontrolované na "možné zaujatosti", ktoré by mohli spôsobiť nespravodlivé výstupy. Vyžaduje sa aktívne testovanie. Vyhýbanie sa úmyselnej zaujatosti nestačí.

3. Presnosť a pokrytie

Datasety musia byť "relevantné, dostatočne reprezentatívne a bez chýb". Webové prieskumy, ktoré vynechávajú určité skupiny, môžu tento test zlyhať.

4. Špeciálne typy záznamov

Článok 10(5) je najpriamejším pravidlom. Keď vysoko-rizikový systém používa záznamy špeciálnej kategórie — zdravie, rasa, náboženstvo, politika, biometria — môžete ich spracovávať len keď je to "nevyhnutne potrebné" pre kontroly zaujatosti. Musíte tiež uplatniť "primerané záruky". Čistenie dát je jednou z najsilnejších záruk, ktorú môžete použiť.

Záver: väčšina datasetov AI modelov obsahuje osobné záznamy. Článok 10 hovorí: používajte minimum potrebného, so silnými technickými zárukami.

Pozrite si našu stránku právneho súladu a prehľad bezpečnosti pre podrobnosti.

Úrovne pokút

EU AI Act má tri úrovne pokút. Všetky prekračujú GDPR pre rovnaký typ porušenia:

NariadenieMaximálna pokutaStrop obratu
GDPR20 miliónov eur4 % globálneho obratu
EU AI Act (vysoko-rizikový)15 miliónov eur3 % globálneho obratu
EU AI Act (zakázaný)35 miliónov eur7 % globálneho obratu

Porušenia datasetu patria do vysoko-rizikovej úrovne (15 miliónov eur / 3 %). Ak regulátor zistí, že používanie osobných záznamov bez záruk je zakázaným aktom, platí najvyššia úroveň.

Reálne príklady: obrat 500 miliónov eur pri 3 % = pokuta 15 miliónov eur. Obrat 5 miliárd eur pri 3 % = pokuta 150 miliónov eur. Toto sú reálne čísla, nie teória.

Prečo čistenie dát toto rieši

Správne vyčistené záznamy nespadajú do rozsahu GDPR. To odstraňuje väčšinu záťaže Článku 10.

Tvrdé pravidlá — spracovanie špeciálnej kategórie, kontroly zaujatosti, práva dotknutých osôb — platia len keď dataset obsahuje osobné záznamy. Najprv odstráňte tieto záznamy. Záťaž väčšinou zmizne.

CNIL (francúzsky orgán pre ochranu údajov) to jasne uviedol na začiatku roku 2026. Jeho usmernenie AI hovorí toto: čistenie osobných záznamov, ktoré nie sú potrebné pre výkon modelu, je primárnym technickým opatrením pre Článok 10.

Toto nie je okrajový pohľad. Je to hlavný postoj najvyššieho regulátora AI v EÚ.

Čo čistenie dát znamená v praxi

Čistenie datasetov AI modelov nie je to isté ako čistenie živých produkčných záznamov. Datasety modelov môžu obsahovať:

  • Dokumenty s PII — zmluvy, e-maily, správy, supportové tikety
  • Štruktúrované záznamy — zákaznícke tabuľky použité na budovanie prediktívnych modelov
  • Označený obsah — obrázky alebo texty s poznámkami, ktoré obsahujú osobné údaje
  • Syntetické záznamy — kde generovanie môže stále zachovávať osobné vzory

Musíte detekovať PII vo všetkých týchto formátoch. Prehliadnutie jedného typu vystavuje celý dataset. Zmluva s odstraneými menami, ale s plnými adresami stále zachovanými, naučí model spájať polohu s demografickými vzormi.

anonym.legal API spracováva dávkové spracovanie pre veľké AI datasety. Detekuje 285+ typov entít v 48 jazykoch. Pre európske AI spoločnosti s viacjazyčnými datasetmi je cezhraničné jazykové pokrytie kritické. Medzera v jednom jazyku vytvára riziko podľa EU AI Act naprieč celým systémom.

Pre viac informácií o detekcii entít pozrite sprievodcu token systémom a referenčný dokument typov entít.

Praktické kroky: Čistenie vášho datasetu

Krok 1: Najprv audit

Spustite detekčný priechod pred akýmkoľvek čistením. Toto vám povie, aké PII je prítomné:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Odpoveď uvádza každú detekovanú entitu s jej typom, pozíciou a skóre. Spustite to naprieč všetkými vašimi súbormi, aby ste videli celý rozsah pred začatím.

Krok 2: Dávkové čistenie

Pre veľké datasety použite dávkový endpoint na spracovanie mnohých súborov naraz:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Hotovo: {result['id']} - {len(result['items'])} entit odstranene")

Krok 3: Veďte záznamy

Článok 10 vyžaduje písomné záznamy o tom, čo ste urobili. Pre každý dataset uchovávajte:

  • Model detekcie a použitú verziu
  • Ktoré typy entít boli nájdené a ako bol každý nahradený
  • Počty entít odstránených z datasetu
  • Dátum čistenia a verziu datasetu

Toto spĺňa požiadavku "postupov správy a riadenia dát" v Článku 10(2)(a).

Bežné otázky

Zhorší čistenie kvalitu modelu?

Vo väčšine prípadov nie. Model sa učí vzory zo štruktúry textu, nie z osobných detailov. Mená, telefónne čísla a adresy môžu byť nahradené zástupnými hodnotami ako [NAME] alebo [PHONE] a model sa stále učí rovnaké vzory. Mnohé výskumné tímy zistili, že vyčistené datasety produkujú modely rovnakej kvality. Kľúčom je používanie konzistentných zástupných hodnôt, aby model videl jasný vzor.

Čo ak je môj dataset veľmi veľký?

Použite dávkové API. Spracováva veľké objemy paralelne. Stránka s cenami ukazuje plány pre prípady použitia s vysokým objemom. Mnoho tímov spracováva milióny záznamov mesačne.

Čo s datasetmi v iných jazykoch ako angličtina?

API podporuje 48 jazykov. Každý jazyk používa detekčný model trénovaný na danom jazyku. To znamená, že nemčina, francúzština, španielčina, japončina a ďalšie sú všetky pokryté. Pozrite si FAQ pre úplný zoznam jazykov. Viacjazyčné datasety sú tiež podporované — môžete špecifikovať jazyk na dokument v dávkovej požiadavke.

Colorado AI Act: Dva termíny

Colorado AI Act nadobúda účinnosť 30. júna 2026 — päť týždňov pred termínom EÚ. Stanovuje podobné pravidlá pre "vysoko-rizikové AI systémy" podľa štátneho práva. Hlavný dôraz je na zaujatosť a diskrimináciu.

Tímy v EÚ aj v Colorade čelia dvom termínom naraz. Čistenie vašich datasetov pomáha splniť oba zákony: Článok 10 (EÚ) a anti-diskriminačné pravidlá Colorada. Technické kroky sú rovnaké.

Konajte teraz

Päť mesiacov je dostatok času — ak začnete dnes. Nie je to dostatok, ak počkáte do júna.

Praktický časový plán:

  1. Týždne 1–2: Auditujte svoje datasety — zistite, aké osobné záznamy sú prítomné
  2. Týždne 3–6: Vytvorte a otestujte váš pipeline čistenia
  3. Týždne 7–10: Spíšte záznamy o riadení; získajte právnu kontrolu
  4. Týždne 11–16: Overte — potvrďte, že vyčistené datasety spĺňajú pravidlá kvality Článku 10
  5. 2. august: Dátum presadzovania — compliantné postupy na mieste

anonym.legal API sa zapojí do vášho aktuálneho pipeline bez veľkých zmien. Skontrolujte ceny pre plány s vysokým objemom. FAQ pokrýva bežné otázky k Článku 10.

Použite kontrolný zoznam súladu s GDPR pre záznamy, ktoré sa prekrývajú medzi GDPR a Článkom 10.

EU AI Act je pripravený presadzovať. Bude vaša organizácia pripravená do 2. augusta?

Začnite s kontrolným zoznamom súladu s GDPR ->

Obmedzenia a otvorené otázky

Čistenie dát pre pravidlá AI Act sa stále vyvíja. Tu sú kľúčové medzery.

Prahy nie sú definované. EU AI Act nehovorí, aká úroveň čistenia je "dostatočná". Kým Európsky úrad pre AI nevydá usmernenie, čelíte právnemu riziku. Možno nebudete vedieť, či vaša metóda uspokojí regulátorov.

Riziko re-identifikácie pretrváva. Výskum ukazuje, že veľké jazykové modely môžu memorovať a prehrávať obsah zo svojich datasetov. Záznamy, ktoré prešli štandardmi čistenia pred vývojom modelu, môžu byť stále extrahovateľné. Čistenie pred vývojom problém plne nerieši.

Syntetické záznamy majú obmedzenia. Syntetické generovanie zachováva štatistické vzory, ale môže pridávať jemné zaujatosti alebo vynechávať zriedkavé okrajové prípady. Modely postavené len na syntetickom obsahu môžu slabo fungovať na reálnych vstupoch.

Článok 10 sa stále interpretuje. Fráza "primerané technické opatrenia" potrebuje interpretáciu. Skorá práca DPA naprieč členskými štátmi EÚ sa neusadila na jasných štandardoch. Sledujte usmernenia EDPB a rozhodnutia členských štátov v priebehu roku 2026.

Zdroje

  • EU AI Act, Nariadenie (EÚ) 2024/1689, Články 9–17 (povinnosti vysoko-rizikového AI), OJ L 2024/1689
  • EU AI Act, Článok 10 — Dáta a správa dát
  • Usmernenie CNIL pre AI datasety, január 2026
  • Colorado AI Act, SB 205, nadobúda účinnosť 30. júna 2026
  • Časový plán EU AI Act: zakázané praktiky 2. februára 2025; vysoko-rizikové systémy 2. augusta 2026

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.