Povratak na BlogGDPR & Usklađenost

EU AI zakon kolovoz 2026.: Anonimizacija podataka za treniranje u skladu s clankom 10

Puna provedba EU AI zakona pocinje 2. kolovoza 2026. Kazne do 35 milijuna eura ili 7% globalnog prometa. Clanak 10 zahtijeva anonimizaciju podataka za treniranje.

March 16, 20269 min čitanja
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Odbrojavanje je zapocelo

Azurirano za 2026.

Rok EU AI zakona je stvaran. Pravila clanka 10 primjenjuju se od 2. kolovoza 2026. Ako vas tim gradi ili pokrace visokorizican AI sustav, djelujte odmah. Vremena je malo.

Kazne su vise od GDPR-a. Maksimalna kazna je 35 milijuna eura ili 7% globalnog godisnjeg prometa. GDPR ima gornju granicu od 20 milijuna eura ili 4%. Nijedan drugi AI zakon nema vise kazne.

Koji su AI sustavi visokorizicni?

AI zakon razvrstava sustave po riziku. Visokorizicni sustavi (Prilog III) pokrivaju AI koji se koristi u:

  • Obrazovanju — pristup skolama ili ocjenjivanje ucenika
  • Zaposljavanju — prosijavanje CV-ova, ocjenjivanje intervjua, nadzor radnika
  • Kljucnim uslugama — kreditno bodovanje, odredjivanje cijene osiguranja, hitna sluzba
  • Provedbi zakona — predvidjanje kriminala, biometricka identifikacija
  • Zdravstvenoj zastiti — softver medicinskih uredaja, trijaza pacijenata
  • Infrastrukturi — upravljanje energijom, vodom ili prometom
  • Pravosuudju — alati za pravno istrazivanje, alati za izricanje kazni

Radite u bilo kojem od ovih podrucja? Clanak 10 primjenjuje se na vas.

Clanak 10: Cetiri kljucna pravila

Clanak 10 postavlja pravila za skupove podataka koje koriste visokorizicni AI sustavi. Evo cetiri glavna.

1. Pisano upravljanje

Skupovi podataka moraju slijediti "odgovarajuce prakse upravljanja i upravljanja podacima". Trebate pisane korake za prikupljanje, provjere kvalitete i tekuci pregled.

2. Testiranje pristranosti

Zapisi moraju biti provjereni zbog "mogucih pristranosti" koje bi mogle uzrokovati nepravedan izlaz. Aktivno testiranje je obvezno. Izbjegavanje namjerne pristranosti nije dovoljno.

3. Tocnost i pokrivenost

Skupovi podataka moraju biti "relevantni, dovoljno reprezentativni i slobodni od gresaka". Web pretrazi koji propustaju odredjene grupe mogu ne proci ovaj test.

4. Posebne vrste zapisa

Clanak 10(5) je najizravnije pravilo. Kad visokorizican sustav koristi zapise posebne kategorije — zdravlje, rasu, vjeru, politiku, biometriku — smijete ih obradjivati samo kad je to "strogo nuzno" za provjere pristranosti. Takodjer morate primijeniti "odgovarajuce zastitne mjere". Ciscenje podataka jedna je od najjacih zastitnih mjera koje mozete koristiti.

Kljucna poruka: vecina skupova podataka AI modela sadrzi osobne zapise. Clanak 10 kaze koristite minimum koji je potreban, s jakim tehnickim zastitnim mjerama.

Pogledajte nasu stranicu pravne uskladjenosti i sigurnosni pregled za detalje.

Razine kazni

EU AI zakon ima tri razine kazni. Sve premacuju GDPR za istu vrstu krsenja:

PropisMaksimalna kaznaGornja granica prometa
GDPR20 milijuna eura4% globalnog prometa
EU AI zakon (visokorizican)15 milijuna eura3% globalnog prometa
EU AI zakon (zabranjeno)35 milijuna eura7% globalnog prometa

Krsenja skupova podataka spadaju u visokorizicnu razinu (15 milijuna eura / 3%). Ako regulatoru utvrdi da je koristenje osobnih zapisa bez zastitnih mjera zabranjeni cin, primjenjuje se gornja razina.

Stvarni primjeri: 500 milijuna eura prometa pri 3% = 15 milijuna eura kazne. 5 milijardi eura prometa pri 3% = 150 milijuna eura kazne. Ovo su stvarni brojevi, ne teorija.

Zasto ciscenje podataka rjesava ovo

Pravilno ocisceni zapisi padaju izvan opsega GDPR-a. To uklanja vecinu tereta clanka 10.

Stroga pravila — rukovanje posebnim kategorijama, provjere pristranosti, prava ispitanika podataka — primjenjuju se samo kad skup podataka sadrzi osobne zapise. Uklonite te zapise prvo. Teret vecinom nestaje.

CNIL (francuski tijelo za zastitu podataka) to je jasno stavio u pocetku 2026. Njegove smjernice za AI kazu ovo: ciscenje osobnih zapisa koji nisu potrebni za performanse modela je primarna tehnicka mjera za clanak 10.

Ovo nije rubni stav. To je mainstream stajalis te vrhovnog EU regulatora za AI.

Sto ciscenje podataka znaci u praksi

Ciscenje skupova podataka AI modela nije isto kao ciscenje zivuih produkcijskih zapisa. Skupovi podataka modela mogu sadrzavati:

  • Dokumente s osobnim podacima — ugovore, e-adrese, izvjesca, zahtjeve za podrsku
  • Strukturirane zapise — tablice korisnika koristene za izgradnju prediktivnih modela
  • Oznacen sadrzaj — slike ili tekst s biljeskama koje ukljucuju osobne podatke
  • Sinteticke zapise — gdje generiranje i dalje moze sacuvati osobne uzorke

Morate otkriti osobne podatke u svim tim formatima. Propustanje jedne vrste izlaze cijeli skup podataka. Ugovor s uklonjenim imenima, ali punim adresama i dalje netaknutim, naucit ce model da povezuje lokaciju s demografskim uzorcima.

anonym.legal API rukuje skupnom obradom za velike AI skupove podataka. Otkriva 285+ vrsta entiteta u 48 jezika. Za europske AI tvrtke s visejezicnim skupovima podataka, medjejezicna pokrivenost je kljucna. Praznina u jednom jeziku stvara rizik prema EU AI zakonu za cijeli sustav.

Za vise o otkrivanju entiteta, pogledajte vodic za token sustav i referencu vrsta entiteta.

Prakticni koraci: Ciscenje vaseg skupa podataka

Korak 1: Revizija najprije

Pokrenite prolaz otkrivanja prije nego ocistite istaglato. Ovo vam govori koji osobni podaci su prisutni:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Odgovor popisuje svaki otkriveni entitet s vrstom, pozicijom i ocjenom. Pokrenite ovo na svim vasim datotekama da vidite cijeli opseg prije pocetka.

Korak 2: Skupno ciscenje

Za velike skupove podataka, koristite skupni endpoint za obradu puno datoteka odjednom:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Gotovo: {result['id']} -- {len(result['items'])} entiteta uklonjeno")

Korak 3: Cuvajte zapise

Clanak 10 zahtijeva pisane zapise o tome sto ste ucinili. Za svaki skup podataka, cuvajte:

  • Model otkrivanja i verziju koristenu
  • Koje vrste entiteta su pronadjene i kako je svaka zamijenjena
  • Brojeve uklonjenih entiteta po skupu podataka
  • Datum ciscenja i verziju skupa podataka koristenu

Ovo ispunjava zahtjev "praksih upravljanja i upravljanja podacima" u clanku 10(2)(a).

Cesta pitanja

Unistava li ciscenje kvalitetu modela?

U vecini slucajeva, ne. Model uci uzorke iz strukture teksta, a ne osobnih detalja. Imena, telefonski brojevi i adrese mogu biti zamijenjeni cuvacima mjesta poput [NAME] ili [PHONE] i model i dalje uci iste uzorke. Mnogi istrazivacki timovi otkrili su da ocisceni skupovi podataka produciraju modele jednake kvalitete. Kljuc je koristiti dosljedne cuvace mjesta kako bi model vidio jasan uzorak.

Sto ako je moj skup podataka vrlo velik?

Koristite skupni API. Obraduje velike kolicine paralelno. Stranica cijena pokazuje planove za slucajeve koristenja s velikim obimom. Mnogi timovi obradjuju milijune zapisa mjesecno.

Sto s neengleskim skupovima podataka?

API podrzava 48 jezika. Svaki jezik koristi model otkrivanja istreniran na tom jeziku. To znaci da su njemacki, francuski, spanjolski, japanski i drugi pokriveni. Pogledajte FAQ za potpuni popis jezika. Visejezicni skupovi podataka takodjer su podrzani — mozete specificirati jezik po dokumentu u skupnom zahtjevu.

Colorado AI zakon: Dva roka

Coloradov AI zakon stupa na snagu 30. lipnja 2026. — pet tjedana prije europskog roka. Postavlja slicna pravila za "visokorizicne AI sustave" prema drzavnom zakonu. Glavni fokus je pristranost i diskriminacija.

Timovi i u EU i u Coloradu suocavaju se s dva roka odjednom. Ciscenje skupova podataka pomaze ispuniti oba zakona: clanak 10 (EU) i Coloradova antidiskriminacijska pravila. Tehnicke korake su isti.

Djelujte sada

Pet mjeseci je dovoljno vremena — ako zapocnete danas. Nije dovoljno ako cekate do lipnja.

Prakticni vremenski okvir:

  1. Tjedni 1-2: Revidirajte skupove podataka — saznajte koji osobni zapisi su prisutni
  2. Tjedni 3-6: Izgradite i testirajte pipeline za ciscenje
  3. Tjedni 7-10: Sastavite zapise upravljanja; nabavite pravni pregled
  4. Tjedni 11-16: Validirajte — potvrdite da ocisceni skupovi podataka ispunjavaju pravila kvalitete clanka 10
  5. 2. kolovoza: Datum provedbe — uskladjene prakse na snazi

anonym.legal API ukljucuje se u vas trenutni pipeline bez velikih promjena. Provjerite cijene za planove s velikim obimom. FAQ pokriva cesta pitanja o clanku 10.

Koristite kontrolni popis uskladjenosti s GDPR-om za zapise koji se preklapaju izmedju GDPR-a i clanka 10.

EU AI zakon je spreman za provedbu. Hoce li vasa organizacija biti spremna do 2. kolovoza?

Zapocnite s kontrolnim popisom uskladjenosti s GDPR-om →

Ogranicenja i otvorena pitanja

Ciscenje podataka prema pravilima AI zakona jos uvijek se razvija. Evo kljucnih praznina.

Pragovi nisu definirani. EU AI zakon ne kaze koja razina ciscenja je "dovoljna". Dok Europski AI ured ne izda smjernice, suocavate se s pravnim rizikom. Mozda necete znati hoce li vasa metoda zadovoljiti regulatore.

Rizik re-identifikacije ostaje. Istrazivanja pokazuju da veliki jezicni modeli mogu zapamtiti i reproducirati sadrzaj iz svojih skupova podataka. Zapisi koji su prosli standarde ciscenja prije razvoja modela i dalje mogu biti izvucivi. Ciscenje prije razvoja ne rjesava u potpunosti ovaj problem.

Sinteticki zapisi imaju ogranicenja. Sinteticka generacija cuvaa statisticke uzorke, ali moze dodati suptilne pristranosti ili propustiti rijetke rubne slucajeve. Modeli izgradjeni samo na sintetickom sadrzaju mogu losije performirati na stvarnim unosima.

Clanak 10 jos uvijek se tumaci. Fraza "odgovarajuce tehnicke mjere" treba tumacenje. Rani rad DPA-a sirom drzava clanica EU nije se usustavio na jasnim standardima. Pratite smjernice EDPB-a i odluke drzava clanica kroz 2026.

Izvori

  • EU AI zakon, Uredba (EU) 2024/1689, clanovi 9-17 (obveze visokorizicnog AI), SL L 2024/1689
  • EU AI zakon, clanak 10 — Podaci i upravljanje podacima
  • CNIL smjernice za AI skupove podataka, sijecanj 2026.
  • Colorado AI zakon, SB 205, na snazi od 30. lipnja 2026.
  • Vremenski okvir EU AI zakona: zabranjene prakse od 2. veljace 2025.; visokorizicni sustavi od 2. kolovoza 2026.

Spremni za zaštitu vaših podataka?

Započnite anonimizaciju PII-a s 285+ vrsta entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.