Odbrojavanje je zapocelo
Azurirano za 2026.
Rok EU AI zakona je stvaran. Pravila clanka 10 primjenjuju se od 2. kolovoza 2026. Ako vas tim gradi ili pokrace visokorizican AI sustav, djelujte odmah. Vremena je malo.
Kazne su vise od GDPR-a. Maksimalna kazna je 35 milijuna eura ili 7% globalnog godisnjeg prometa. GDPR ima gornju granicu od 20 milijuna eura ili 4%. Nijedan drugi AI zakon nema vise kazne.
Koji su AI sustavi visokorizicni?
AI zakon razvrstava sustave po riziku. Visokorizicni sustavi (Prilog III) pokrivaju AI koji se koristi u:
- Obrazovanju — pristup skolama ili ocjenjivanje ucenika
- Zaposljavanju — prosijavanje CV-ova, ocjenjivanje intervjua, nadzor radnika
- Kljucnim uslugama — kreditno bodovanje, odredjivanje cijene osiguranja, hitna sluzba
- Provedbi zakona — predvidjanje kriminala, biometricka identifikacija
- Zdravstvenoj zastiti — softver medicinskih uredaja, trijaza pacijenata
- Infrastrukturi — upravljanje energijom, vodom ili prometom
- Pravosuudju — alati za pravno istrazivanje, alati za izricanje kazni
Radite u bilo kojem od ovih podrucja? Clanak 10 primjenjuje se na vas.
Clanak 10: Cetiri kljucna pravila
Clanak 10 postavlja pravila za skupove podataka koje koriste visokorizicni AI sustavi. Evo cetiri glavna.
1. Pisano upravljanje
Skupovi podataka moraju slijediti "odgovarajuce prakse upravljanja i upravljanja podacima". Trebate pisane korake za prikupljanje, provjere kvalitete i tekuci pregled.
2. Testiranje pristranosti
Zapisi moraju biti provjereni zbog "mogucih pristranosti" koje bi mogle uzrokovati nepravedan izlaz. Aktivno testiranje je obvezno. Izbjegavanje namjerne pristranosti nije dovoljno.
3. Tocnost i pokrivenost
Skupovi podataka moraju biti "relevantni, dovoljno reprezentativni i slobodni od gresaka". Web pretrazi koji propustaju odredjene grupe mogu ne proci ovaj test.
4. Posebne vrste zapisa
Clanak 10(5) je najizravnije pravilo. Kad visokorizican sustav koristi zapise posebne kategorije — zdravlje, rasu, vjeru, politiku, biometriku — smijete ih obradjivati samo kad je to "strogo nuzno" za provjere pristranosti. Takodjer morate primijeniti "odgovarajuce zastitne mjere". Ciscenje podataka jedna je od najjacih zastitnih mjera koje mozete koristiti.
Kljucna poruka: vecina skupova podataka AI modela sadrzi osobne zapise. Clanak 10 kaze koristite minimum koji je potreban, s jakim tehnickim zastitnim mjerama.
Pogledajte nasu stranicu pravne uskladjenosti i sigurnosni pregled za detalje.
Razine kazni
EU AI zakon ima tri razine kazni. Sve premacuju GDPR za istu vrstu krsenja:
| Propis | Maksimalna kazna | Gornja granica prometa |
|---|---|---|
| GDPR | 20 milijuna eura | 4% globalnog prometa |
| EU AI zakon (visokorizican) | 15 milijuna eura | 3% globalnog prometa |
| EU AI zakon (zabranjeno) | 35 milijuna eura | 7% globalnog prometa |
Krsenja skupova podataka spadaju u visokorizicnu razinu (15 milijuna eura / 3%). Ako regulatoru utvrdi da je koristenje osobnih zapisa bez zastitnih mjera zabranjeni cin, primjenjuje se gornja razina.
Stvarni primjeri: 500 milijuna eura prometa pri 3% = 15 milijuna eura kazne. 5 milijardi eura prometa pri 3% = 150 milijuna eura kazne. Ovo su stvarni brojevi, ne teorija.
Zasto ciscenje podataka rjesava ovo
Pravilno ocisceni zapisi padaju izvan opsega GDPR-a. To uklanja vecinu tereta clanka 10.
Stroga pravila — rukovanje posebnim kategorijama, provjere pristranosti, prava ispitanika podataka — primjenjuju se samo kad skup podataka sadrzi osobne zapise. Uklonite te zapise prvo. Teret vecinom nestaje.
CNIL (francuski tijelo za zastitu podataka) to je jasno stavio u pocetku 2026. Njegove smjernice za AI kazu ovo: ciscenje osobnih zapisa koji nisu potrebni za performanse modela je primarna tehnicka mjera za clanak 10.
Ovo nije rubni stav. To je mainstream stajalis te vrhovnog EU regulatora za AI.
Sto ciscenje podataka znaci u praksi
Ciscenje skupova podataka AI modela nije isto kao ciscenje zivuih produkcijskih zapisa. Skupovi podataka modela mogu sadrzavati:
- Dokumente s osobnim podacima — ugovore, e-adrese, izvjesca, zahtjeve za podrsku
- Strukturirane zapise — tablice korisnika koristene za izgradnju prediktivnih modela
- Oznacen sadrzaj — slike ili tekst s biljeskama koje ukljucuju osobne podatke
- Sinteticke zapise — gdje generiranje i dalje moze sacuvati osobne uzorke
Morate otkriti osobne podatke u svim tim formatima. Propustanje jedne vrste izlaze cijeli skup podataka. Ugovor s uklonjenim imenima, ali punim adresama i dalje netaknutim, naucit ce model da povezuje lokaciju s demografskim uzorcima.
anonym.legal API rukuje skupnom obradom za velike AI skupove podataka. Otkriva 285+ vrsta entiteta u 48 jezika. Za europske AI tvrtke s visejezicnim skupovima podataka, medjejezicna pokrivenost je kljucna. Praznina u jednom jeziku stvara rizik prema EU AI zakonu za cijeli sustav.
Za vise o otkrivanju entiteta, pogledajte vodic za token sustav i referencu vrsta entiteta.
Prakticni koraci: Ciscenje vaseg skupa podataka
Korak 1: Revizija najprije
Pokrenite prolaz otkrivanja prije nego ocistite istaglato. Ovo vam govori koji osobni podaci su prisutni:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Odgovor popisuje svaki otkriveni entitet s vrstom, pozicijom i ocjenom. Pokrenite ovo na svim vasim datotekama da vidite cijeli opseg prije pocetka.
Korak 2: Skupno ciscenje
Za velike skupove podataka, koristite skupni endpoint za obradu puno datoteka odjednom:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Gotovo: {result['id']} -- {len(result['items'])} entiteta uklonjeno")
Korak 3: Cuvajte zapise
Clanak 10 zahtijeva pisane zapise o tome sto ste ucinili. Za svaki skup podataka, cuvajte:
- Model otkrivanja i verziju koristenu
- Koje vrste entiteta su pronadjene i kako je svaka zamijenjena
- Brojeve uklonjenih entiteta po skupu podataka
- Datum ciscenja i verziju skupa podataka koristenu
Ovo ispunjava zahtjev "praksih upravljanja i upravljanja podacima" u clanku 10(2)(a).
Cesta pitanja
Unistava li ciscenje kvalitetu modela?
U vecini slucajeva, ne. Model uci uzorke iz strukture teksta, a ne osobnih detalja. Imena, telefonski brojevi i adrese mogu biti zamijenjeni cuvacima mjesta poput [NAME] ili [PHONE] i model i dalje uci iste uzorke. Mnogi istrazivacki timovi otkrili su da ocisceni skupovi podataka produciraju modele jednake kvalitete. Kljuc je koristiti dosljedne cuvace mjesta kako bi model vidio jasan uzorak.
Sto ako je moj skup podataka vrlo velik?
Koristite skupni API. Obraduje velike kolicine paralelno. Stranica cijena pokazuje planove za slucajeve koristenja s velikim obimom. Mnogi timovi obradjuju milijune zapisa mjesecno.
Sto s neengleskim skupovima podataka?
API podrzava 48 jezika. Svaki jezik koristi model otkrivanja istreniran na tom jeziku. To znaci da su njemacki, francuski, spanjolski, japanski i drugi pokriveni. Pogledajte FAQ za potpuni popis jezika. Visejezicni skupovi podataka takodjer su podrzani — mozete specificirati jezik po dokumentu u skupnom zahtjevu.
Colorado AI zakon: Dva roka
Coloradov AI zakon stupa na snagu 30. lipnja 2026. — pet tjedana prije europskog roka. Postavlja slicna pravila za "visokorizicne AI sustave" prema drzavnom zakonu. Glavni fokus je pristranost i diskriminacija.
Timovi i u EU i u Coloradu suocavaju se s dva roka odjednom. Ciscenje skupova podataka pomaze ispuniti oba zakona: clanak 10 (EU) i Coloradova antidiskriminacijska pravila. Tehnicke korake su isti.
Djelujte sada
Pet mjeseci je dovoljno vremena — ako zapocnete danas. Nije dovoljno ako cekate do lipnja.
Prakticni vremenski okvir:
- Tjedni 1-2: Revidirajte skupove podataka — saznajte koji osobni zapisi su prisutni
- Tjedni 3-6: Izgradite i testirajte pipeline za ciscenje
- Tjedni 7-10: Sastavite zapise upravljanja; nabavite pravni pregled
- Tjedni 11-16: Validirajte — potvrdite da ocisceni skupovi podataka ispunjavaju pravila kvalitete clanka 10
- 2. kolovoza: Datum provedbe — uskladjene prakse na snazi
anonym.legal API ukljucuje se u vas trenutni pipeline bez velikih promjena. Provjerite cijene za planove s velikim obimom. FAQ pokriva cesta pitanja o clanku 10.
Koristite kontrolni popis uskladjenosti s GDPR-om za zapise koji se preklapaju izmedju GDPR-a i clanka 10.
EU AI zakon je spreman za provedbu. Hoce li vasa organizacija biti spremna do 2. kolovoza?
Zapocnite s kontrolnim popisom uskladjenosti s GDPR-om →
Ogranicenja i otvorena pitanja
Ciscenje podataka prema pravilima AI zakona jos uvijek se razvija. Evo kljucnih praznina.
Pragovi nisu definirani. EU AI zakon ne kaze koja razina ciscenja je "dovoljna". Dok Europski AI ured ne izda smjernice, suocavate se s pravnim rizikom. Mozda necete znati hoce li vasa metoda zadovoljiti regulatore.
Rizik re-identifikacije ostaje. Istrazivanja pokazuju da veliki jezicni modeli mogu zapamtiti i reproducirati sadrzaj iz svojih skupova podataka. Zapisi koji su prosli standarde ciscenja prije razvoja modela i dalje mogu biti izvucivi. Ciscenje prije razvoja ne rjesava u potpunosti ovaj problem.
Sinteticki zapisi imaju ogranicenja. Sinteticka generacija cuvaa statisticke uzorke, ali moze dodati suptilne pristranosti ili propustiti rijetke rubne slucajeve. Modeli izgradjeni samo na sintetickom sadrzaju mogu losije performirati na stvarnim unosima.
Clanak 10 jos uvijek se tumaci. Fraza "odgovarajuce tehnicke mjere" treba tumacenje. Rani rad DPA-a sirom drzava clanica EU nije se usustavio na jasnim standardima. Pratite smjernice EDPB-a i odluke drzava clanica kroz 2026.
Izvori
- EU AI zakon, Uredba (EU) 2024/1689, clanovi 9-17 (obveze visokorizicnog AI), SL L 2024/1689
- EU AI zakon, clanak 10 — Podaci i upravljanje podacima
- CNIL smjernice za AI skupove podataka, sijecanj 2026.
- Colorado AI zakon, SB 205, na snazi od 30. lipnja 2026.
- Vremenski okvir EU AI zakona: zabranjene prakse od 2. veljace 2025.; visokorizicni sustavi od 2. kolovoza 2026.