Odpocitavanie sa zacalo
Aktualizované pre rok 2026
Termín EU AI Act je reálny. Pravidlá Článku 10 sa vzťahujú od 2. augusta 2026. Ak váš tím buduje alebo prevádzkuje vysoko-rizikový AI systém, konajte teraz. Čas je krátky.
Pokuty sú vyššie ako pri GDPR. Maximálna pokuta je 35 miliónov eur alebo 7 % globálneho ročného obratu. GDPR má strop 20 miliónov eur alebo 4 %. Žiadny iný zákon o AI nemá vyššie pokuty.
Ktoré AI systémy sú vysoko-rizikové?
AI Act triedi systémy podľa rizika. Vysoko-rizikové systémy (Príloha III) pokrývajú AI používanú v:
- Vzdelávaní — prístup do školy alebo hodnotenie študentov
- Zamestnanosti — skríning životopisov, hodnotenie pohovorov, monitorovanie pracovníkov
- Kľúčových službách — úverové hodnotenie, poistné ceny, dispečing záchranných služieb
- Presadzovaní práva — predikcia kriminality, biometrická identifikácia
- Zdravotnej starostlivosti — softvér zdravotníckych zariadení, triage pacientov
- Infraštruktúre — správa energie, vody alebo dopravy
- Spravodlivosti — nástroje na právny výskum, nástroje na vymerávanie trestov
Pracujete v niektorej z týchto oblastí? Článok 10 sa vzťahuje na vás.
Článok 10: Štyri kľúčové pravidlá
Článok 10 stanovuje pravidlá pre datasety používané vysoko-rizikovými AI systémami. Tu sú štyri hlavné.
1. Písomné riadenie
Datasety musia dodržiavať "primerané postupy správy a riadenia dát". Potrebujete písomné kroky pre zber, kontroly kvality a priebežnú kontrolu.
2. Testovanie zaujatosti
Záznamy musia byť skontrolované na "možné zaujatosti", ktoré by mohli spôsobiť nespravodlivé výstupy. Vyžaduje sa aktívne testovanie. Vyhýbanie sa úmyselnej zaujatosti nestačí.
3. Presnosť a pokrytie
Datasety musia byť "relevantné, dostatočne reprezentatívne a bez chýb". Webové prieskumy, ktoré vynechávajú určité skupiny, môžu tento test zlyhať.
4. Špeciálne typy záznamov
Článok 10(5) je najpriamejším pravidlom. Keď vysoko-rizikový systém používa záznamy špeciálnej kategórie — zdravie, rasa, náboženstvo, politika, biometria — môžete ich spracovávať len keď je to "nevyhnutne potrebné" pre kontroly zaujatosti. Musíte tiež uplatniť "primerané záruky". Čistenie dát je jednou z najsilnejších záruk, ktorú môžete použiť.
Záver: väčšina datasetov AI modelov obsahuje osobné záznamy. Článok 10 hovorí: používajte minimum potrebného, so silnými technickými zárukami.
Pozrite si našu stránku právneho súladu a prehľad bezpečnosti pre podrobnosti.
Úrovne pokút
EU AI Act má tri úrovne pokút. Všetky prekračujú GDPR pre rovnaký typ porušenia:
| Nariadenie | Maximálna pokuta | Strop obratu |
|---|---|---|
| GDPR | 20 miliónov eur | 4 % globálneho obratu |
| EU AI Act (vysoko-rizikový) | 15 miliónov eur | 3 % globálneho obratu |
| EU AI Act (zakázaný) | 35 miliónov eur | 7 % globálneho obratu |
Porušenia datasetu patria do vysoko-rizikovej úrovne (15 miliónov eur / 3 %). Ak regulátor zistí, že používanie osobných záznamov bez záruk je zakázaným aktom, platí najvyššia úroveň.
Reálne príklady: obrat 500 miliónov eur pri 3 % = pokuta 15 miliónov eur. Obrat 5 miliárd eur pri 3 % = pokuta 150 miliónov eur. Toto sú reálne čísla, nie teória.
Prečo čistenie dát toto rieši
Správne vyčistené záznamy nespadajú do rozsahu GDPR. To odstraňuje väčšinu záťaže Článku 10.
Tvrdé pravidlá — spracovanie špeciálnej kategórie, kontroly zaujatosti, práva dotknutých osôb — platia len keď dataset obsahuje osobné záznamy. Najprv odstráňte tieto záznamy. Záťaž väčšinou zmizne.
CNIL (francúzsky orgán pre ochranu údajov) to jasne uviedol na začiatku roku 2026. Jeho usmernenie AI hovorí toto: čistenie osobných záznamov, ktoré nie sú potrebné pre výkon modelu, je primárnym technickým opatrením pre Článok 10.
Toto nie je okrajový pohľad. Je to hlavný postoj najvyššieho regulátora AI v EÚ.
Čo čistenie dát znamená v praxi
Čistenie datasetov AI modelov nie je to isté ako čistenie živých produkčných záznamov. Datasety modelov môžu obsahovať:
- Dokumenty s PII — zmluvy, e-maily, správy, supportové tikety
- Štruktúrované záznamy — zákaznícke tabuľky použité na budovanie prediktívnych modelov
- Označený obsah — obrázky alebo texty s poznámkami, ktoré obsahujú osobné údaje
- Syntetické záznamy — kde generovanie môže stále zachovávať osobné vzory
Musíte detekovať PII vo všetkých týchto formátoch. Prehliadnutie jedného typu vystavuje celý dataset. Zmluva s odstraneými menami, ale s plnými adresami stále zachovanými, naučí model spájať polohu s demografickými vzormi.
anonym.legal API spracováva dávkové spracovanie pre veľké AI datasety. Detekuje 285+ typov entít v 48 jazykoch. Pre európske AI spoločnosti s viacjazyčnými datasetmi je cezhraničné jazykové pokrytie kritické. Medzera v jednom jazyku vytvára riziko podľa EU AI Act naprieč celým systémom.
Pre viac informácií o detekcii entít pozrite sprievodcu token systémom a referenčný dokument typov entít.
Praktické kroky: Čistenie vášho datasetu
Krok 1: Najprv audit
Spustite detekčný priechod pred akýmkoľvek čistením. Toto vám povie, aké PII je prítomné:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Odpoveď uvádza každú detekovanú entitu s jej typom, pozíciou a skóre. Spustite to naprieč všetkými vašimi súbormi, aby ste videli celý rozsah pred začatím.
Krok 2: Dávkové čistenie
Pre veľké datasety použite dávkový endpoint na spracovanie mnohých súborov naraz:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Hotovo: {result['id']} - {len(result['items'])} entit odstranene")
Krok 3: Veďte záznamy
Článok 10 vyžaduje písomné záznamy o tom, čo ste urobili. Pre každý dataset uchovávajte:
- Model detekcie a použitú verziu
- Ktoré typy entít boli nájdené a ako bol každý nahradený
- Počty entít odstránených z datasetu
- Dátum čistenia a verziu datasetu
Toto spĺňa požiadavku "postupov správy a riadenia dát" v Článku 10(2)(a).
Bežné otázky
Zhorší čistenie kvalitu modelu?
Vo väčšine prípadov nie. Model sa učí vzory zo štruktúry textu, nie z osobných detailov. Mená, telefónne čísla a adresy môžu byť nahradené zástupnými hodnotami ako [NAME] alebo [PHONE] a model sa stále učí rovnaké vzory. Mnohé výskumné tímy zistili, že vyčistené datasety produkujú modely rovnakej kvality. Kľúčom je používanie konzistentných zástupných hodnôt, aby model videl jasný vzor.
Čo ak je môj dataset veľmi veľký?
Použite dávkové API. Spracováva veľké objemy paralelne. Stránka s cenami ukazuje plány pre prípady použitia s vysokým objemom. Mnoho tímov spracováva milióny záznamov mesačne.
Čo s datasetmi v iných jazykoch ako angličtina?
API podporuje 48 jazykov. Každý jazyk používa detekčný model trénovaný na danom jazyku. To znamená, že nemčina, francúzština, španielčina, japončina a ďalšie sú všetky pokryté. Pozrite si FAQ pre úplný zoznam jazykov. Viacjazyčné datasety sú tiež podporované — môžete špecifikovať jazyk na dokument v dávkovej požiadavke.
Colorado AI Act: Dva termíny
Colorado AI Act nadobúda účinnosť 30. júna 2026 — päť týždňov pred termínom EÚ. Stanovuje podobné pravidlá pre "vysoko-rizikové AI systémy" podľa štátneho práva. Hlavný dôraz je na zaujatosť a diskrimináciu.
Tímy v EÚ aj v Colorade čelia dvom termínom naraz. Čistenie vašich datasetov pomáha splniť oba zákony: Článok 10 (EÚ) a anti-diskriminačné pravidlá Colorada. Technické kroky sú rovnaké.
Konajte teraz
Päť mesiacov je dostatok času — ak začnete dnes. Nie je to dostatok, ak počkáte do júna.
Praktický časový plán:
- Týždne 1–2: Auditujte svoje datasety — zistite, aké osobné záznamy sú prítomné
- Týždne 3–6: Vytvorte a otestujte váš pipeline čistenia
- Týždne 7–10: Spíšte záznamy o riadení; získajte právnu kontrolu
- Týždne 11–16: Overte — potvrďte, že vyčistené datasety spĺňajú pravidlá kvality Článku 10
- 2. august: Dátum presadzovania — compliantné postupy na mieste
anonym.legal API sa zapojí do vášho aktuálneho pipeline bez veľkých zmien. Skontrolujte ceny pre plány s vysokým objemom. FAQ pokrýva bežné otázky k Článku 10.
Použite kontrolný zoznam súladu s GDPR pre záznamy, ktoré sa prekrývajú medzi GDPR a Článkom 10.
EU AI Act je pripravený presadzovať. Bude vaša organizácia pripravená do 2. augusta?
Začnite s kontrolným zoznamom súladu s GDPR ->
Obmedzenia a otvorené otázky
Čistenie dát pre pravidlá AI Act sa stále vyvíja. Tu sú kľúčové medzery.
Prahy nie sú definované. EU AI Act nehovorí, aká úroveň čistenia je "dostatočná". Kým Európsky úrad pre AI nevydá usmernenie, čelíte právnemu riziku. Možno nebudete vedieť, či vaša metóda uspokojí regulátorov.
Riziko re-identifikácie pretrváva. Výskum ukazuje, že veľké jazykové modely môžu memorovať a prehrávať obsah zo svojich datasetov. Záznamy, ktoré prešli štandardmi čistenia pred vývojom modelu, môžu byť stále extrahovateľné. Čistenie pred vývojom problém plne nerieši.
Syntetické záznamy majú obmedzenia. Syntetické generovanie zachováva štatistické vzory, ale môže pridávať jemné zaujatosti alebo vynechávať zriedkavé okrajové prípady. Modely postavené len na syntetickom obsahu môžu slabo fungovať na reálnych vstupoch.
Článok 10 sa stále interpretuje. Fráza "primerané technické opatrenia" potrebuje interpretáciu. Skorá práca DPA naprieč členskými štátmi EÚ sa neusadila na jasných štandardoch. Sledujte usmernenia EDPB a rozhodnutia členských štátov v priebehu roku 2026.
Zdroje
- EU AI Act, Nariadenie (EÚ) 2024/1689, Články 9–17 (povinnosti vysoko-rizikového AI), OJ L 2024/1689
- EU AI Act, Článok 10 — Dáta a správa dát
- Usmernenie CNIL pre AI datasety, január 2026
- Colorado AI Act, SB 205, nadobúda účinnosť 30. júna 2026
- Časový plán EU AI Act: zakázané praktiky 2. februára 2025; vysoko-rizikové systémy 2. augusta 2026