anonym.legal
Povratak na blogGDPR i usklađenost

EU AI akt august 2026: Anonimizacija podataka za obuku radi ispunjavanja clana 10

Potpuno provodjenje EU AI akta pocinje 2. avgusta 2026. Kazne do 35 miliona eura ili 7% globalnog prometa. Clan 10 zahtijeva anonimizaciju podataka za obuku.

March 16, 20269 min čitanja
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Odbrojavanje je pocelo

Azurirano za 2026.

Rok EU AI akta je stvaran. Pravila clana 10 primjenjuju se od 2. avgusta 2026. Ako vas tim gradi ili pokr ece visokorizicni AI sistem, djelujte sada. Vrijeme je kratko.

Kazne su vise od GDPR-a. Maksimalna kazna je 35 miliona eura ili 7% godisnjeg globalnog prometa. GDPR ima gornju granicu od 20 miliona eura ili 4%. Nijedan drugi AI zakon nema vise kazne.

Koji AI sistemi su visokorizicni?

AI akt razvrstava sisteme po riziku. Visokorizicni sistemi (Aneks III) pokrivaju AI koristeni u:

  • Obrazovanju -- pristup skoli ili bodovanje studenata
  • Zaposljavanju -- pregled CV-ova, bodovanje intervjua, pracenje radnika
  • Kljucnim uslugama -- bodovanje kredita, odredjivanje cijena osiguranja, hitna sluzba
  • Provodjenju zakona -- predvidjanje kriminala, biometrijska identifikacija
  • Zdravstvenoj zastiti -- softver medicinskih uredaja, trijaza pacijenata
  • Infrastrukturi -- upravljanje energijom, vodom ili transportom
  • Pravosudju -- alati za pravna istrazivanja, alati za kazne

Radite u nekom od ovih? Clan 10 se primjenjuje na vas.

Clan 10: Cetiri kljucna pravila

Clan 10 postavlja pravila za skupove podataka koje koriste visokorizicni AI sistemi. Evo cetiri glavna.

1. Pisano upravljanje

Skupovi podataka moraju slijediti "odgovarajuce prakse upravljanja podacima i rukovodjenja." Potrebni su vam pisani koraci za prikupljanje, provjere kvaliteta i kontinuiranu reviziju.

2. Testiranje pristrasnosti

Zapisi moraju biti provjereni za "moguce pristrasnosti" koje mogu uzrokovati nepravedne izlaze. Aktivno testiranje je obavezno. Izbjegavanje namjerne pristrasnosti nije dovoljno.

3. Tacnost i pokrivenost

Skupovi podataka moraju biti "relevantni, dovoljno reprezentativni i bez gresaka." Web prikupljanja koja propustaju odredjene grupe mogu propasti ovaj test.

4. Posebne vrste zapisa

Clan 10(5) je najneposrednije pravilo. Kada visokorizicni sistem koristi posebne kategorije zapisa -- zdravlje, rasa, vjera, politika, biometrika -- mozete ih obradivati samo kada je "striktno neophodno" za provjere pristrasnosti. Takodje morate primijeniti "odgovarajuce mjere zastite". Cistenje podataka je jedna od najjacih mjera zastite koje mozete koristiti.

Zakljucak: vecina skupova podataka AI modela sadrzi licne zapise. Clan 10 kaze koristite minimum potreban, sa jakim tehnickim mjerama zastite.

Pogledajte nasu stranicu o pravnoj uskladjenosti i pregled bezbjednosti za detalje.

Nivoi kazni

EU AI akt ima tri nivoa kazni. Svi premascuju GDPR za isti tip krsenja:

PropisMaks. kaznaGornja granica prometa
GDPR20 miliona eura4% globalnog prometa
EU AI akt (visokorizicni)15 miliona eura3% globalnog prometa
EU AI akt (zabranjeni)35 miliona eura7% globalnog prometa

Krsenja skupova podataka spadaju u visokorizicni nivo (15 miliona eura / 3%). Ako regulator utvrdi da je koristenje licnih zapisa bez mjera zastite zabranjeni akt, primjenjuje se gornji nivo.

Stvarni primjeri: promet od 500 miliona eura pri 3% = kazna od 15 miliona eura. Promet od 5 milijardi eura pri 3% = kazna od 150 miliona eura. Ovo su stvarni brojevi, a ne teorija.

Zasto cistenje podataka rjesava ovo

Ispravno ocisceni zapisi padaju izvan opsega GDPR-a. To uklanja vecinu tereta clana 10.

Teska pravila -- rukovanje posebnim kategorijama, provjere pristrasnosti, prava subjekta podataka -- primjenjuju se samo kada skup podataka sadrzi licne zapise. Uklonite te zapise prvo. Teret uglavnom nestaje.

CNIL (francuski organ za podatke) je ovo jasno naznacio pocetkom 2026. Smjernice za AI kazu ovo: cistenje licnih zapisa koji nisu potrebni za performanse modela je primarna tehnicka mjera za clan 10.

Ovo nije rubni stav. To je glavni stav vodeceg EU regulatora za AI.

Sta cistenje podataka znaci u praksi

Ciscenje skupova podataka AI modela nije isto sto i ciscenje zivotnih produkcijskih zapisa. Skupovi podataka modela mogu sadrzavati:

  • Dokumente sa PII -- ugovore, emailove, izvjestaje, tikete podrske
  • Strukturirane zapise -- tablice klijenata koristene za izgradnju prediktivnih modela
  • Oznaceni sadrzaj -- slike ili tekst sa biljeskama koje ukljucuju licne podatke
  • Sintetske zapise -- gdje generisanje moze i dalje cuvati licne obrasce

Morate detektovati PII u svim ovim formatima. Propustanje jednog tipa izlaze cijeli skup podataka. Ugovor sa uklonjenim imenima ali punim adresama koje su jos uvijek netaknute naucice model da poveze lokaciju sa demografskim obrascima.

anonym.legal API obradjuje serijsku obradu za velike AI skupove podataka. Detektuje 285+ vrsta entiteta u 48 jezika. Za evropske AI kompanije sa visejezikcnim skupovima podataka, medjujezicka pokrivenost je kriticna. Praznina u jednom jeziku stvara EU AI akt rizik u cijelom sistemu.

Za vise o detekciji entiteta, pogledajte vodic za sistem tokena i referencu vrsta entiteta.

Prakticni koraci: Cistenje vaseg skupa podataka

Korak 1: Prvo revidirajte

Pokrenite prolaz detekcije prije nego sto ista cistite. Ovo vam govori koji PII je prisutan:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Odgovor lista svaki detektovani entitet sa njegovim tipom, pozicijom i rezultatom. Pokrenite ovo na svim vasim datotekama da vidite potpuni opseg prije nego sto pocnete.

Korak 2: Serijna obrada

Za velike skupove podataka, koristite serijski endpoint za obradu mnogih datoteka odjednom:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Gotovo: {result['id']} -- {len(result['items'])} entiteta uklonjeno")

Korak 3: Vodite evidenciju

Clan 10 zahtijeva pisanu evidenciju o tome sto ste uradili. Za svaki skup podataka, cuvajte:

  • Model detekcije i verziju koristenu
  • Koje vrste entiteta su pronadjene i kako je svaka zamijenjena
  • Broj entiteta uklonjenih po skupu podataka
  • Datum cistenja i koristenu verziju skupa podataka

Ovo ispunjava zahtjev "praksi upravljanja podacima i rukovodjenja" u clanu 10(2)(a).

Cesta pitanja

Da li cistenje kvari kvalitet modela?

U vecini slucajeva, ne. Model uci obrasce iz strukture teksta, a ne licnih detalja. Imena, brojevi telefona i adrese mogu biti zamijenjeni oznakama kao sto su [NAME] ili [PHONE] i model i dalje uci iste obrasce. Mnogi istrazivacki timovi su otkrili da ocisceni skupovi podataka proizvode modele jednake kvalitete. Kljuc je koristiti konzistentne oznake tako da model vidi jasan obrazac.

Sta ako je moj skup podataka vrlo velik?

Koristite serijski API. On obradjuje velike volumene paralelno. Stranica s cijenama prikazuje planove za slucajeve upotrebe visokog volumena. Mnogi timovi obradjuju milione zapisa mjesecno.

Sta s neengleskim skupovima podataka?

API podrzava 48 jezika. Svaki jezik koristi model detekcije obucen na tom jeziku. To znaci da su njemacki, francuski, spanski, japanski i drugi svi pokriveni. Pogledajte FAQ za potpunu listu jezika. Skupovi podataka na misevitim jezicima su takodje podrzani -- mozete specificirati jezik po dokumentu u serijskom zahtjevu.

Colorado AI akt: Dva roka

Colorado AI akt stupa na snagu 30. juna 2026. -- pet sedmica prije EU roka. Postavlja slicna pravila za "visokorizicne AI sisteme" po drzavnom zakonu. Glavni fokus je pristrasnost i diskriminacija.

Timovi i u EU i u Coloradu suocavaju se sa dva roka odjednom. Cistenje vasih skupova podataka pomaze ispunjavanju oba zakona: clana 10 (EU) i Colorado pravila protiv pristrasnosti. Tehnicki koraci su isti.

Djelujte sada

Pet mjeseci je dovoljno vremena -- ako pocnete danas. Nije dovoljno ako cekate do juna.

Prakticni vremenski okvir:

  1. Sedmice 1-2: Revidujte svoje skupove podataka -- saznajte koji licni zapisi su prisutni
  2. Sedmice 3-6: Izgradite i testirajte vas cjevovod za cistenje
  3. Sedmice 7-10: Napiste vase evidencije upravljanja; pribavite pravni pregled
  4. Sedmice 11-16: Validirajte -- potvrdite da ocisceni skupovi podataka ispunjavaju pravila kvaliteta clana 10
  5. 2. august: Datum provodjenja -- uskladjene prakse na snazi

anonym.legal API se ukljucuje u vas trenutni cjevovod bez velikih izmjena. Provjerite cijene za planove volumena. FAQ pokriva cesta pitanja o clanu 10.

Koristite GDPR kontrolnu listu uskladjenosti za zapise koji se preklapaju izmedju GDPR-a i clana 10.

EU AI akt je spreman za provodjenje. Hoce li vasa organizacija biti spremna do 2. avgusta?

Pocnite sa GDPR kontrolnom listom uskladjenosti -->

Ogranicenja i otvorena pitanja

Ciscenje podataka za pravila AI akta je i dalje u razvoju. Evo kljucnih praznina.

Pragovi nisu definisani. EU AI akt ne kaze koji nivo cistenja je "dovoljan". Dok Evropski AI ured ne izda smjernice, suocavate se sa pravnim rizikom. Mozda ne znate da li ce vasa metoda zadovoljiti regulatore.

Rizik od ponovne identifikacije ostaje. Istrazivanja pokazuju da veliki jezicki modeli mogu memorisati i reproducirati sadrzaj iz svojih skupova podataka. Zapisi koji su prosli standarde cistenja prije razvoja modela mogu i dalje biti ekstraktabilni. Cistenje prije razvoja ne rjesava potpuno ovo.

Sintetski zapisi imaju ogranicenja. Sinteticko generisanje cuva statisticke obrasce ali moze dodati suptilne pristrasnosti ili propustiti rijetke rubne slucajeve. Modeli izgradjeni samo na sintetickom sadrzaju mogu losije funkcionisati na stvarnim unosima.

Clan 10 se jos uvijek tumaci. Fraza "odgovarajuce tehnicke mjere" zahtijeva tumacenje. Rani rad DPA-a u drzavama clanicama EU nije se usaglasio na jasnim standardima. Pratite smjernice EDPB-a i odluke drzava clanica tokom 2026.

Izvori

  • EU AI akt, Uredba (EU) 2024/1689, clanovi 9-17 (obaveze visokorizicnog AI), OJ L 2024/1689
  • EU AI akt, clan 10 -- Podaci i upravljanje podacima
  • CNIL smjernice za AI skupove podataka, januar 2026.
  • Colorado AI akt, SB 205, stupa na snagu 30. juna 2026.
  • Vremenski okvir EU AI akta: zabranjene prakse od 2. februara 2025.; visokorizicni sistemi od 2. avgusta 2026.

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.