Odpocitavanie sa zacalo

Aktualizované pre rok 2026

Termín EU AI Act je reálny. Pravidlá Článku 10 sa vzťahujú od 2. augusta 2026. Ak váš tím buduje alebo prevádzkuje vysoko-rizikový AI systém, konajte teraz. Čas je krátky.

Pokuty sú vyššie ako pri GDPR. Maximálna pokuta je 35 miliónov eur alebo 7 % globálneho ročného obratu. GDPR má strop 20 miliónov eur alebo 4 %. Žiadny iný zákon o AI nemá vyššie pokuty.

Ktoré AI systémy sú vysoko-rizikové?

AI Act triedi systémy podľa rizika. Vysoko-rizikové systémy (Príloha III) pokrývajú AI používanú v:

Vzdelávaní — prístup do školy alebo hodnotenie študentov
Zamestnanosti — skríning životopisov, hodnotenie pohovorov, monitorovanie pracovníkov
Kľúčových službách — úverové hodnotenie, poistné ceny, dispečing záchranných služieb
Presadzovaní práva — predikcia kriminality, biometrická identifikácia
Zdravotnej starostlivosti — softvér zdravotníckych zariadení, triage pacientov
Infraštruktúre — správa energie, vody alebo dopravy
Spravodlivosti — nástroje na právny výskum, nástroje na vymerávanie trestov

Pracujete v niektorej z týchto oblastí? Článok 10 sa vzťahuje na vás.

Článok 10: Štyri kľúčové pravidlá

Článok 10 stanovuje pravidlá pre datasety používané vysoko-rizikovými AI systémami. Tu sú štyri hlavné.

1. Písomné riadenie

Datasety musia dodržiavať "primerané postupy správy a riadenia dát". Potrebujete písomné kroky pre zber, kontroly kvality a priebežnú kontrolu.

2. Testovanie zaujatosti

Záznamy musia byť skontrolované na "možné zaujatosti", ktoré by mohli spôsobiť nespravodlivé výstupy. Vyžaduje sa aktívne testovanie. Vyhýbanie sa úmyselnej zaujatosti nestačí.

3. Presnosť a pokrytie

Datasety musia byť "relevantné, dostatočne reprezentatívne a bez chýb". Webové prieskumy, ktoré vynechávajú určité skupiny, môžu tento test zlyhať.

4. Špeciálne typy záznamov

Článok 10(5) je najpriamejším pravidlom. Keď vysoko-rizikový systém používa záznamy špeciálnej kategórie — zdravie, rasa, náboženstvo, politika, biometria — môžete ich spracovávať len keď je to "nevyhnutne potrebné" pre kontroly zaujatosti. Musíte tiež uplatniť "primerané záruky". Čistenie dát je jednou z najsilnejších záruk, ktorú môžete použiť.

Záver: väčšina datasetov AI modelov obsahuje osobné záznamy. Článok 10 hovorí: používajte minimum potrebného, so silnými technickými zárukami.

Pozrite si našu stránku právneho súladu a prehľad bezpečnosti pre podrobnosti.

Úrovne pokút

EU AI Act má tri úrovne pokút. Všetky prekračujú GDPR pre rovnaký typ porušenia:

Nariadenie	Maximálna pokuta	Strop obratu
GDPR	20 miliónov eur	4 % globálneho obratu
EU AI Act (vysoko-rizikový)	15 miliónov eur	3 % globálneho obratu
EU AI Act (zakázaný)	35 miliónov eur	7 % globálneho obratu

Porušenia datasetu patria do vysoko-rizikovej úrovne (15 miliónov eur / 3 %). Ak regulátor zistí, že používanie osobných záznamov bez záruk je zakázaným aktom, platí najvyššia úroveň.

Reálne príklady: obrat 500 miliónov eur pri 3 % = pokuta 15 miliónov eur. Obrat 5 miliárd eur pri 3 % = pokuta 150 miliónov eur. Toto sú reálne čísla, nie teória.

Prečo čistenie dát toto rieši

Správne vyčistené záznamy nespadajú do rozsahu GDPR. To odstraňuje väčšinu záťaže Článku 10.

Tvrdé pravidlá — spracovanie špeciálnej kategórie, kontroly zaujatosti, práva dotknutých osôb — platia len keď dataset obsahuje osobné záznamy. Najprv odstráňte tieto záznamy. Záťaž väčšinou zmizne.

CNIL (francúzsky orgán pre ochranu údajov) to jasne uviedol na začiatku roku 2026. Jeho usmernenie AI hovorí toto: čistenie osobných záznamov, ktoré nie sú potrebné pre výkon modelu, je primárnym technickým opatrením pre Článok 10.

Toto nie je okrajový pohľad. Je to hlavný postoj najvyššieho regulátora AI v EÚ.

Čo čistenie dát znamená v praxi

Čistenie datasetov AI modelov nie je to isté ako čistenie živých produkčných záznamov. Datasety modelov môžu obsahovať:

Dokumenty s PII — zmluvy, e-maily, správy, supportové tikety
Štruktúrované záznamy — zákaznícke tabuľky použité na budovanie prediktívnych modelov
Označený obsah — obrázky alebo texty s poznámkami, ktoré obsahujú osobné údaje
Syntetické záznamy — kde generovanie môže stále zachovávať osobné vzory

Musíte detekovať PII vo všetkých týchto formátoch. Prehliadnutie jedného typu vystavuje celý dataset. Zmluva s odstraneými menami, ale s plnými adresami stále zachovanými, naučí model spájať polohu s demografickými vzormi.

anonym.legal API spracováva dávkové spracovanie pre veľké AI datasety. Detekuje 285+ typov entít v 48 jazykoch. Pre európske AI spoločnosti s viacjazyčnými datasetmi je cezhraničné jazykové pokrytie kritické. Medzera v jednom jazyku vytvára riziko podľa EU AI Act naprieč celým systémom.

Pre viac informácií o detekcii entít pozrite sprievodcu token systémom a referenčný dokument typov entít.

Praktické kroky: Čistenie vášho datasetu

Krok 1: Najprv audit

Spustite detekčný priechod pred akýmkoľvek čistením. Toto vám povie, aké PII je prítomné:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Odpoveď uvádza každú detekovanú entitu s jej typom, pozíciou a skóre. Spustite to naprieč všetkými vašimi súbormi, aby ste videli celý rozsah pred začatím.

Krok 2: Dávkové čistenie

Pre veľké datasety použite dávkový endpoint na spracovanie mnohých súborov naraz:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Hotovo: {result['id']} - {len(result['items'])} entit odstranene")

Krok 3: Veďte záznamy

Článok 10 vyžaduje písomné záznamy o tom, čo ste urobili. Pre každý dataset uchovávajte:

Model detekcie a použitú verziu
Ktoré typy entít boli nájdené a ako bol každý nahradený
Počty entít odstránených z datasetu
Dátum čistenia a verziu datasetu

Toto spĺňa požiadavku "postupov správy a riadenia dát" v Článku 10(2)(a).

Bežné otázky

Zhorší čistenie kvalitu modelu?

Vo väčšine prípadov nie. Model sa učí vzory zo štruktúry textu, nie z osobných detailov. Mená, telefónne čísla a adresy môžu byť nahradené zástupnými hodnotami ako [NAME] alebo [PHONE] a model sa stále učí rovnaké vzory. Mnohé výskumné tímy zistili, že vyčistené datasety produkujú modely rovnakej kvality. Kľúčom je používanie konzistentných zástupných hodnôt, aby model videl jasný vzor.

Čo ak je môj dataset veľmi veľký?

Použite dávkové API. Spracováva veľké objemy paralelne. Stránka s cenami ukazuje plány pre prípady použitia s vysokým objemom. Mnoho tímov spracováva milióny záznamov mesačne.

Čo s datasetmi v iných jazykoch ako angličtina?

API podporuje 48 jazykov. Každý jazyk používa detekčný model trénovaný na danom jazyku. To znamená, že nemčina, francúzština, španielčina, japončina a ďalšie sú všetky pokryté. Pozrite si FAQ pre úplný zoznam jazykov. Viacjazyčné datasety sú tiež podporované — môžete špecifikovať jazyk na dokument v dávkovej požiadavke.

Colorado AI Act: Dva termíny

Colorado AI Act nadobúda účinnosť 30. júna 2026 — päť týždňov pred termínom EÚ. Stanovuje podobné pravidlá pre "vysoko-rizikové AI systémy" podľa štátneho práva. Hlavný dôraz je na zaujatosť a diskrimináciu.

Tímy v EÚ aj v Colorade čelia dvom termínom naraz. Čistenie vašich datasetov pomáha splniť oba zákony: Článok 10 (EÚ) a anti-diskriminačné pravidlá Colorada. Technické kroky sú rovnaké.

Konajte teraz

Päť mesiacov je dostatok času — ak začnete dnes. Nie je to dostatok, ak počkáte do júna.

Praktický časový plán:

Týždne 1–2: Auditujte svoje datasety — zistite, aké osobné záznamy sú prítomné
Týždne 3–6: Vytvorte a otestujte váš pipeline čistenia
Týždne 7–10: Spíšte záznamy o riadení; získajte právnu kontrolu
Týždne 11–16: Overte — potvrďte, že vyčistené datasety spĺňajú pravidlá kvality Článku 10
2. august: Dátum presadzovania — compliantné postupy na mieste

anonym.legal API sa zapojí do vášho aktuálneho pipeline bez veľkých zmien. Skontrolujte ceny pre plány s vysokým objemom. FAQ pokrýva bežné otázky k Článku 10.

Použite kontrolný zoznam súladu s GDPR pre záznamy, ktoré sa prekrývajú medzi GDPR a Článkom 10.

EU AI Act je pripravený presadzovať. Bude vaša organizácia pripravená do 2. augusta?

Začnite s kontrolným zoznamom súladu s GDPR ->

Obmedzenia a otvorené otázky

Čistenie dát pre pravidlá AI Act sa stále vyvíja. Tu sú kľúčové medzery.

Prahy nie sú definované. EU AI Act nehovorí, aká úroveň čistenia je "dostatočná". Kým Európsky úrad pre AI nevydá usmernenie, čelíte právnemu riziku. Možno nebudete vedieť, či vaša metóda uspokojí regulátorov.

Riziko re-identifikácie pretrváva. Výskum ukazuje, že veľké jazykové modely môžu memorovať a prehrávať obsah zo svojich datasetov. Záznamy, ktoré prešli štandardmi čistenia pred vývojom modelu, môžu byť stále extrahovateľné. Čistenie pred vývojom problém plne nerieši.

Syntetické záznamy majú obmedzenia. Syntetické generovanie zachováva štatistické vzory, ale môže pridávať jemné zaujatosti alebo vynechávať zriedkavé okrajové prípady. Modely postavené len na syntetickom obsahu môžu slabo fungovať na reálnych vstupoch.

Článok 10 sa stále interpretuje. Fráza "primerané technické opatrenia" potrebuje interpretáciu. Skorá práca DPA naprieč členskými štátmi EÚ sa neusadila na jasných štandardoch. Sledujte usmernenia EDPB a rozhodnutia členských štátov v priebehu roku 2026.

Zdroje

EU AI Act, Nariadenie (EÚ) 2024/1689, Články 9–17 (povinnosti vysoko-rizikového AI), OJ L 2024/1689
EU AI Act, Článok 10 — Dáta a správa dát
Usmernenie CNIL pre AI datasety, január 2026
Colorado AI Act, SB 205, nadobúda účinnosť 30. júna 2026
Časový plán EU AI Act: zakázané praktiky 2. februára 2025; vysoko-rizikové systémy 2. augusta 2026

EU AI Act august 2026: Anonymizacia trenovacich dat pre splnenie Clanku 10

Odpocitavanie sa zacalo

Ktoré AI systémy sú vysoko-rizikové?

Článok 10: Štyri kľúčové pravidlá

Úrovne pokút

Prečo čistenie dát toto rieši

Čo čistenie dát znamená v praxi

Praktické kroky: Čistenie vášho datasetu

Bežné otázky

Colorado AI Act: Dva termíny

Konajte teraz

Obmedzenia a otvorené otázky

Zdroje

Súvisiace články

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Pripravení chrániť vaše údaje?

EU AI Act august 2026: Anonymizacia trenovacich dat pre splnenie Clanku 10

Odpocitavanie sa zacalo

Ktoré AI systémy sú vysoko-rizikové?

Článok 10: Štyri kľúčové pravidlá

Úrovne pokút

Prečo čistenie dát toto rieši

Čo čistenie dát znamená v praxi

Praktické kroky: Čistenie vášho datasetu

Bežné otázky

Colorado AI Act: Dva termíny

Konajte teraz

Obmedzenia a otvorené otázky

Zdroje

Súvisiace články

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Pripravení chrániť vaše údaje?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow