anonym.legal
Povratak na blogGDPR i usklađenost

EU AI Act august 2026: anonimizacija podataka o obuci...

EU AI Act potpuno sprovođenje počinje 2. avgusta 2026. Kazne do 35M€ ili 7% od svetskog prihodа.

March 16, 20269 min čitanja
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Odbrojavanje je počelo

Vremenski raspored sprovođenja EU AI Act-a više nije apstraktan. Zahtevi za sisteme AI-a visokog rizika — uključujući mandat o upravljanju podacima za obuku članka 10 — primenjuju se od 2. avgusta 2026. Organizacije koje treniraju, fino-podeśavaju ili lansiraju AI sisteme visokog rizika i nisu uspostavile usaglašene prakse podataka o obuci imaju otprilike pet meseci za sanaciju.

Kazne su veće od GDPR: do €35 miliona ili 7% od svetskog godisnjeg prihoda, šta god je više. GDPR kapsa na €20 miliona ili 4%. EU AI Act je regulatorna sa najvećim ulozima na AI regulaciji koja je na snazi bilo gde na svetu, i njene kazne su kalibovane da osiguraju čak ni velike tehnološke kompanije ne mogu da apsorbiraju ne-usaglašenost kao poslovni trošak.

Šta čini AI sistem "visokog rizika"?

AI Act-a klasifikacija rizika određuje koje obaveze se primenjuju. Sistemi visokog rizika (Prilog III) uključuju AI korišćen u:

  • Obrazovanje i stručna obuka — sistemi koji određuju pristup obrazovnim institucijama ili procenjuju učenike
  • Zaposlenost — analiza CV-a, ocena intervjua, praćenje radne snage
  • Bitne usluge — procena kreditne sposobnosti, određivanje cena osiguranja, dispečerski pozivi
  • Provođenje zakona — prediktivna policija, analitika kriminala, biometrijska identifikacija
  • Zdravstvo — softver medicinskog uređaja, podrška kliničkoj odluci, trijažа pacijenta
  • Kritična infrastruktura — sistemi upravljanja energijom, vodom, transportnim mrežama
  • Administracija pravosudja — alati za pravna istraživanja, sistemi preporuke kazne

Ako tvoja organizacija trenira ili lansira AI u bilo kojoj od ovih kategorija, Članak 10 se primenjuje na tebe.

Članak 10: Šta je zaista potrebno

Članak 10 EU AI Act-a uspostavlja zahteve za skupove podataka o obuci, validaciji i testiranju koji se koriste za AI sisteme visokog rizika. Ključni zahtevi:

1. Prakse upravljanja podacima

Skupovi podataka o obuci moraju biti predmetni "odgovarajućim praksama upravljanja podacima i upravljanja." To uključuje dokumentovane procedure za prikupljanje podataka, procenu kvalitete podataka i stalno praćenje. Prakse moraju pokrivati svrhu za koju se podaci koriste i kategorije prikupljenih podataka.

2. Pregled mogućih pristranosti

Podaci o obuci moraju biti pregledani za "moguće pristranosti" koja bi mogla dovesti do diskriminacionih rezultata. Ovaj zahtev je operacijski značajan: mandatira aktivno testiranje pristrasnosti, a ne samo odsutnost namerno diskriminacionog dizajna.

3. Relevantnost, reprezentativnost i tačnost

Skupovi podataka moraju biti "relevantni, dovoljno reprezentativni i u najvećoj mogućoj meri slobodni od grešaka." To kreira obaveza kvalitete koja se proširuje na metodologiju prikupljanja podataka — uzorci pogodnosti ili prikupljeni web podaci koji sistematski nedovoljno predstavljaju određene populacije ne mogu zadovoljiti ovaj zahtev za aplikacije visokog rizika.

4. Posebne kategorije ličnih podataka

Članak 10(5) pruža najdirektnije spoljašnje obaveze za organizacije sa postojećim skupovima podataka: kad AI sistemi visokog rizika uključuju obradu posebnih kategorija ličnih podataka (zdravstveni podaci, rasna ili etnička porekla, politička mišljenja, religijska uverenja, biometrijski podaci), te kategorije mogu biti obrađene samo kada su "strogo neophodne u svrhe osiguranja praćenja pristranosti, detektovanja i korekcije" i "podložne odgovarajućim zaštitama za fundamentalna prava i interese prirodnih osoba."

Praktična posledica: Većina skupova podataka o obuci koji se koriste za AI sisteme visokog rizika sadrže lične podatke, a mnogi sadrže posebne kategorije. Članak 10 zahteva da se ti podaci obrađuju samo do minimalnog stepena potrebnog i pod odgovarajućim tehničkim zaštitama — od kojih je anonimizacija najsnažnije.

Matematika kazne: zašto ovo prelazi GDPR

Struktura kazne EU AI Act-a prelazi GDPR za namera ili nehatan kršenja:

RegulacijaMaksimalna kaznaPrihodna kapsa
GDPR€20 miliona4% svetski prihodа
EU AI Act (visoki rizik)€15 miliona3% svetski prihodа
EU AI Act (zabranjene prakse)€35 miliona7% svetski prihodа

Za kršenja podataka o obuci, primenljivi sloj je sloj sistema visokog rizika (€15M / 3%). Međutim, ako DPA odredi da obuka na ličnim podacima bez adekvatnih zaštita predstavlja zabranjenu praksu — određenje koje postaje plauzibilnije kako se praksa sprovođenja Act-a razvija — zabranjene prakse kazne se primenjuju.

Za kompaniju sa €500M godisnjeg prihoda: 3% = €15M. Za kompaniju sa €5B prihodа: 3% = €150M. Ova nisu teoretski maksimumi — oni su stvarni izračuni koje će regulatori primeniti.

Zašto je anonimizacija odgovor na usaglašenost

Anonimizacija kreira fundamentalno pravno pojednostavljenje: anonimizovani podaci su van dosega GDPR-a, i prema tome, smanjuje površinu rizika AI Act-a za upravljanje podacima o obuci.

Zahteve članka 10 najzahtevnije — rukovanje posebne kategorije, praćenje pristrasnosti sa ličnim podacima, prava subjekta podataka u skupovima obuke — primenjuju se jer skup podataka o obuci sadrži lične podatke. Ako je skup podataka o obuci zaista anonimizovan pre početka obuke, ovi zahtevi su ili eliminisani ili značajno smanjeni.

CNIL (Francuska vlada za zaštitu podataka) je objavila preporuke za obuku AI-ja rana 2026 eksplicitno navođenjem: "Minimizacija podataka pre obuke — uključujući anonimizacija ličnih podataka nije strogo potrebna za performanse modela — je primarna tehnička mera za usaglašenost sa člankom 10."

Ovo nije manja interpretacija. To je glavni stav sprovođenja najtehnički sofisticiranog DPA EU-a.

Šta anonimizacija znači za podatke o obuci — praktično

Anonimizacija podataka o obuci nije ista kao anonimizacija podataka iz produkcije. Podaci o obuci obično čine:

  • Dokumenti sa ugninežđenim PII — ugovori, e-mali, izveštaji, tikete podrške korišćeni kao primeri za fino-podeśavanje
  • Strukturni zapisi — tabele sa podacima kupaca korišćenim za obuku prediktivnih modela
  • Obeleženi skupovi podataka — slike ili tekst sa anotacijama koji mogu sadržavati lične identifikatore
  • Sintetski podaci na osnovu stvarnih zapisa — gde proces sintetske generacije može da čuva identifikacione šablone

Efektivna anonimizacija za podatke o obuci zahteva detektovanje PII preko svih ovih formata i zamenu ili maskiranje pre nego što se posao obuke pokreće. Detektovanje entiteta mora biti sveobuhvatno — model obukan na podacima gde je "Marko Marković" zamenjen ali gde ostaje "pacijent na 42 Oak Street, Springfield" će naučiti da asocira lokacijske šablone sa demografskim prognozama.

Anonym.legal API obrađuje podatke o obuci u režimu serije, detektujući 285+ tipove entiteta preko 48 jezika. Za organizacije sa višejezičnim skupovima podataka o obuci — čest scenarij za evropske AI kompanije koje služe više lingvističnih tržišta — ova pokrivenost jezika je bitna. Greška usaglašenosti u jednom jeziku multilingual skupa podataka o obuci kreira AI Act izloženost za ceo sistem.

Praktični vodiči: anonimizacija tvoje cevovoda obuke

Korak 1: Audituiraj tvoje skupove podataka o obuci

Pre anonimizacije, trebaš znati šta imaš. Pokreni pass detektovanja preko svih izvora podataka o obuci:

# Obrada direktorijuma dokumenata obuke
curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat training_document.txt)"'",
    "language": "sr"
  }'

Odgovor lista sve detektovane entitete sa njihovim tipovim, pozicijama i rezultatima pouzdanosti. Agreguj preko tvog skupa podataka da razumeš PII izloženost pre nego što počneš sa sanacijom.

Korak 2: Serija anonimizacija

Za velike skupove podataka o obuci, koristi endpoint serije da obradi više dokumenata paralelno:

import requests
import os
import json
from pathlib import Path

def anonymize_training_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "sr"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

training_dir = Path("./training_data")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in training_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    batch = docs[i:i+batch_size]
    results = anonymize_training_batch(batch)
    for result in results:
        output_path = training_dir / "anonymized" / result["id"]
        output_path.write_text(result["text"])
        print(f"Obrađen {result['id']}: {len(result['items'])} entiteta uklonjeno")

Korak 3: Dokumentuj proces

Članak 10 zahteva dokumentovane prakse upravljanja podacima. Dokumentacija tvog procesa anonimizacije trebalo bi da uključi:

  • Model detektovanja i verzija korišćena
  • Tipove entiteta detektovani i strategija zamene za svaki
  • Zapis brojevima entiteta uklonjenih po skupu podataka
  • Datum anonimizacije i verzija podataka obuke korišćena

Ova dokumentacija predstavlja "prakse upravljanja podacima i upravljanja" zahtevane člankom 10(2)(a).

Colorado AI Act: Paralelna US obaveza

Colorado AI Act stupuje na snagu 30. juna 2026 — pet nedelja pre nego što stupaju na snagu zahtevi za sisteme visokog rizika EU AI Act-a. Colorado zakon nalaže slične obaveze podataka obuke za "AI sisteme visokog rizika" pod Colorado zakonom, sa fokuso na algoritamsku diskriminaciju.

Organizacije koje deluju i u EU i u Coloradu suočavaju se sa simultanim rokama usaglašenosti. Pristup anonimizaciji zadovoljava oba: upravljanje podacima o obuci pod člankom 10 (EU) i mere za prevenciju algoritamske diskriminacije pod Colorado zakonom. Tehnička implementacija je identična.

Počni sada

Pet meseci je dovoljno vremena da se primeni anonimizacija podataka obuke ako rad počne odmah. Nije dovoljno vremena ako rad počne u junu.

Niz usaglašenosti:

  1. Nedelje 1-2: Audituiraj skup podataka — razumej kakvi PII su prisutni
  2. Nedelje 3-6: Implementacija i testiranje cevovoda anonimizacije
  3. Nedelje 7-10: Dokumentovanje procesa i pravna prerada
  4. Nedelje 11-16: Validacija — proverі da li anonimizovani skupovi podataka zadovoljavaju zahteve kvalitete članka 10
  5. 2. august: Datum sprovođenja — usaglašeno upravljanje podacima o obuci na mestu

Anonym.legal API se integriše u postojeće cevovode obuke bez potrebe za promenama u infrastrukturi. GDPR lista proveravanja za usaglašenost pokriva zahteve dokumentovanja upravljanja podacima koji se preklapaju između GDPR-a i članka 10.

EU AI Act je spreman za sprovođenje. Pitanje za organizacije koje prave AI sisteme visokog rizika nije da li je usaglašenost obavezna — to je da li će biti spremni do 2. avgusta.

Počni sa GDPR listom proveravanja za usaglašenost →


Izvori:

  • EU AI Act, Regulation (EU) 2024/1689, Članci 9-17 (obaveze za sisteme visokog rizika), OJ L 2024/1689
  • EU AI Act, Članak 10 — Podaci i upravljanje podacima
  • CNIL preporuke za obuku AI, januar 2026
  • Colorado AI Act, SB 205, stupanje na snagu 30. juna 2026
  • EU AI Act vremenski raspored sprovođenja: zabranjene prakse 2. februar 2025; sistemi visokog rizika 2. august 2026

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.