Odbrojavanja su započela
Timeline provedbe EU AI Act-a više nije apstraktan. Zahtjevi visokog rizika AI sustava — uključujući mandat upravljanja podacima obuke članka 10 — primjenjuju se od 2. kolovoza 2026. Organizacije koje treniraju, fino podešavaju ili implementiraju AI sustave visokog rizika i nisu uspostavile prakse podacima obuke u skladu s tim trebale bi se sanirati u otprilike pet mjeseci.
Kazne su veće od GDPR: do €35 milijuna ili 7% globalnog godišnjeg prihoda, što god je veće. GDPR je ograničen na €20 milijuna ili 4%. EU AI Act je zakonodavstvo AI-ja s najvećim ulozima na svijetu, a njegove kazne su kalibrirane kako bi osiguralo da čak i velike tehnološke tvrtke ne mogu apsorbirati ne-sukladnost kao cijenu poslovanja.
Što čini AI sustav "visokim rizikom"?
Klasifikacija rizika AI Act-a određuje koje obaveze primjenjuju. Sustavi visokog rizika (Prilog III) uključuju AI korištene u:
- Obrazovanje i strukovnu obuku — sustavi koji određuju pristup obrazovnim institucijama ili procjenjuju studente
- Zapošljavanje — CV screening, ocjena intervjua, nadzor radne snage
- Bitne usluge — procjena kredivnosti, određivanje cijene osiguranja, dispecer hitnih službi
- Provedba zakona — prediktivna policija, analitika kriminala, biometrijska identifikacija
- Zdravstvena zaštita — software medicinskog uređaja, podrška klinička odluka, triage pacijenata
- Kritična infrastruktura — sustavi upravljanja energijom, vodom, transportnim mrežama
- Administracija pravosudne vlasti — alati istraživanja pravnih pitanja, sustavi preporuke rečenice
Ako vaša organizacija treniše ili implementira AI u bilo koju od tih kategorija, članak 10 se primjenjuje na vas.
Članak 10: Što to zapravo zahtijeva
Članak 10 EU AI Act-a uspostavlja zahtjeve za obuke, validacije i testiranje skupova podataka korištenima visokog rizika AI sustavima. Ključne zahtjeve:
1. Prakse upravljanja podacima
Skupovi podataka obuke moraju biti predmet "odgovarajućih praksi upravljanja podacima i podataka." Ovo uključuje dokumentirane procedure za prikupljanje podataka, procjenu kvalitete podataka i kontinuirani nadzor. Prakse moraju obuhvatiti svrhu za koju se podaci koriste i kategorije prikupljenih podataka.
2. Preispitivanje za pristranosti
Podaci obuke moraju biti preispitani za "moguće pristranosti" koja bi mogla dovesti do diskriminatornog izlaza. Ovaj zahtjev je operativno značajan: on zahtijeva aktivnu provjeru pristranosti, a ne samo odsutnost namjerno diskriminatornog dizajna.
3. Relevantnost, reprezentativnost i točnost
Skupovi podataka moraju biti "relevantni, dovoljno reprezentativni i u najvećoj mjeri moguće bez grešaka." Ovo stvara obaveza kvalitete koja se proteže na metodologiju prikupljanja podataka — uzorci kombiniranja ili data web-a koji sustavno nisu predstavljaju određene populacije mogu ne zadovoljiti ovaj zahtjev za aplikacije visokog rizika.
4. Posebne kategorije osobnih podataka
Članak 10(5) pruža najovisatiju obavezu za organizacije s postojećim skupovima podataka: kada sustavi AI visokog rizika uključuju obradu posebnih kategorija osobnih podataka (podaci o zdravlju, rasa ili etnijsko porijeklo, politička mišljenja, vjerske nazove, biometrijski podaci), te kategorije mogu biti obrađene samo kada je "strogo potrebno u svrhu osiguranja pristranosti monitoringa, detekcije i korekcije" i "predmet odgovarajućih zaštita za temeljne prava i interese fizičkih osoba."
Praktična posljedica: Većina skupova podataka obuke korištenih za AI sustave visokog rizika sadrže osobne podatke, a mnogi sadrže posebne kategorije. Članak 10 zahtijeva da ti podaci budu obrađeni samo u minimalnoj mjeri potrebnoj i predmet odgovarajućih tehnička zaštita — od kojih je anonimizacija najsnažnija.
Matematika kazne: Zašto je ovo veće od GDPR
Struktura kazne EU AI Act-a prelazi GDPR za namnjevnu ili neupadnu kršenja:
| Uredba | Maksimalna kazna | Cap prihoda |
|---|---|---|
| GDPR | €20 milijuna | 4% globalnog prihoda |
| EU AI Act (visoki rizik) | €15 milijuna | 3% globalnog prihoda |
| EU AI Act (zabranjene prakse) | €35 milijuna | 7% globalnog prihoda |
Za kršenja podataka obuke, primijenjena razina je sloj sustava visokog rizika (€15M / 3%). Međutim, ako DPA determiniše da je obuka na osobnim podacima bez odgovarajućih zaštita čini zabranjenu praksu — determiniacija što postaje plauzibilnija kako se praksa provedbe Act-a razvija — primjenjuju se zabranjene prakse kazne.
Za tvrtku s €500M godišnjim prihodom: 3% = €15M. Za tvrtku s €5B prihodima: 3% = €150M. To nisu teorijski maksimumi — oni su stvarni izračunavanje koji će regulatori primjeniti.
Zašto je anonimizacija odgovor na sukladnost
Anonimizacija kreira temeljnu pravnu pojednostavljenje: anonimizovani podaci su izvan dosega GDPR, i po proširenju, smanjiti AI Act riziku površinu za upravljanje podacima obuke.
Najopteretljiviji zahtjevi članka 10 — rukovanje posebnih kategorija, monitorovanje pristranosti s osobnim podacima, prava subjekta podataka u skupovima obuke — primjenjuju se jer skup podataka obuke sadrži osobne podatke. Ako je skup podataka obuke pravo anonimiziran prije početka obuke, ti zahtjevi su ili eliminovani ili znatno smanjeni.
CNIL (francuska uprava za zaštitu podataka) objavila je preporuke obuke AI ranog 2026. eksplicitno koje "minimiziranje podataka prije obuke — uključujući anonimizacija osobnih podataka nije strogo potrebna za performansu modela — je primarna tehnička mjera za sukladnost s člankom 10."
Ovo nije marginalno interpretacija. To je glavna praksa provedbe francuske tehnički najsofisticirajuće DPA.
Što anonimizacija znači za podatke obuke — praktički
Anonimizacija podataka obuke nije isto kao anonimizacija produkcijskih podataka. Podaci obuke obično se sastoje od:
- Dokumenata s ugrađenim PII — ugovore, emaile, izvještaje, ticket podrške korištene kao primjere finog podešavanja
- Strukturiranih zapisa — tablice korisničkih podataka korištenih za treniranje prediktivnih modela
- Označenih skupova podataka — slike ili tekst s anotacijama što mogu sadržavati osobne identifikatore
- Sintetičkih podataka na temelju stvarnih zapisa — gdje proces sintetičke generacije može očuvati obrasce koji bi se moglo identificirati
Efektivna anonimizacija za podatke obuke zahtijeva detektovanje PII-a u cijeloj formatima i zamjena ili maskiranja prije nego što se posao obuke pokrene. Detekcija entiteta mora biti sveobuhvatna — model treniran na podacima gdje je "John Smith" zamijenjen, ali gdje "pacijent na 42 Oak Street, Springfield" ostaje će naučiti da povezuje lokacijske obrasce s demografskim predikcijama.
anonym.legal API obrađuje podatke obuke u grešama, detektujući 285+ vrsta entiteta preko 48 jezika. Za organizacije s multilingvalnim skupovima podataka obuke — čest scenarij za europske AI tvrtke koje poslužuju više jezičnih tržišta — ta pokrivenost jezika je neophodna. Greška sukladnosti u jednom jeziku multilingvalne obuke postavlja AI Act izloženost preko cijelog sustava.
Praktični vodič: Anonimizacija vašeg cijevu obuke
Korak 1: Revidirajte vaše skupove podataka obuke
Prijedlog anonimizacije, trebate znati što imate. Pokrenite prolazak detekcije preko svih izvornika podataka obuke:
# Obrada direktorija dokumenata obuke
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat training_document.txt)"'",
"language": "en"
}'
Odgovor popis svih detektovanih entiteta s njihovim tipovima, pozicijama i rezultatima pouzdanosti. Agregat preko vašeg skupa podataka kako bi razumjeli PII izloženost prije nego što započnete sanaciju.
Korak 2: Greška anonimiziranje
Za velike skupove podataka obuke, koristite krajnju točku greške kako bi obradili više dokumenata paralelno:
import requests
import os
import json
from pathlib import Path
def anonymize_training_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
# Učitajte dokumente obuke
training_dir = Path("./training_data")
docs = [
{"id": f.name, "text": f.read_text()}
for f in training_dir.glob("*.txt")
]
# Anonimiziranje u greškama od 50
batch_size = 50
for i in range(0, len(docs), batch_size):
batch = docs[i:i+batch_size]
results = anonymize_training_batch(batch)
for result in results:
output_path = training_dir / "anonymized" / result["id"]
output_path.write_text(result["text"])
print(f"Obrada {result['id']}: {len(result['items'])} entiteta uklonjeno")
Korak 3: Dokument proces
Članak 10 zahtijeva dokumentirane prakse upravljanja podacima. Dokumentacija vašeg procesa anonimizacije trebala bi uključiti:
- Model detekcije i verziju korištenu
- Tipove entiteta detektovane i zamjena strategije za svaki
- Zapis broja entiteta uklonjenih po skupu podataka
- Datum anonimizacije i verziju podataka obuke korištenih
Ova dokumentacija čini "prakse upravljanja podacima i podataka" zahtijevane člankom 10(2)(a).
Colorado AI Act: Paralelna US obaveza
Colorado AI Act stupio je na snagu 30. lipnja 2026 — pet tjedana prije datuma provedbe visokog rizika EU AI Act-a. Colorado-ov zakon ukazuje slične obveze podataka obuke za "sustave AI visokog rizika" prema Colorado zakonu, s fokusom na algoritamsku diskriminaciju.
Organizacije koje se koriste u EU i Colorado suočavaju se s istovremenim rokama sukladnosti. Pristup anonimizaciji zadovoljava oba: upravljanje podacima obuke prema članku 10 (EU) i mjere prevencije algoritamske diskriminacije prema Colorado zakonu. Tehnička implementacija je identična.
Započinjanje sada
Pet mjeseci je dovoljno vremena za implementaciju anonimizacije podataka obuke ako se rad počne odmah. To nije dovoljno vremena ako se rad počne u lipnju.
Slijed sukladnosti:
- Tjedni 1-2: Revizija skupa podataka — razumijevanje što PII je prisutna
- Tjedni 3-6: Implementacija cijevu anonimizacije i testiranje
- Tjedni 7-10: Dokumentacija procesa i pravni pregled
- Tjedni 11-16: Validacija — provjerite da anonimizovani skupovi podataka zadovoljavaju zahtjeve kvalitete članka 10
- 2. kolovoza: Datum provedbe — upravljanje podacima obuke u skladu s člankom 10 na mjestu
anonym.legal API integrira se u postojeće cijevi obuke bez zahtijevanja promjena infrastrukture. GDPR kontrolna lista za sukladnost pokriva zahtjeve dokumentacije upravljanja podacima koji se preklapaju između GDPR i članka 10.
EU AI Act je spreman za provedbu. Pitanje za organizacije koje grade sustave AI visokog rizika nije trebam li sukladnost — već su li oni biti spremi do 2. kolovoza.
Počnite s GDPR kontrolnom listom za sukladnost →
Izvori:
- EU AI Act, Uredba (EU) 2024/1689, članci 9-17 (obaveze visokog rizika AI), OJ L 2024/1689
- EU AI Act, članak 10 — Podaci i upravljanje podacima
- CNIL preporuke obuke AI, siječanj 2026
- Colorado AI Act, SB 205, stupanja na snagu 30. lipnja 2026
- EU AI Act vremenski raspored provedbe: zabranjene prakse 2. veljače 2025.; sustavi visokog rizika 2. kolovoza 2026