Odsotevanje se je zacelo
Posodobljeno za leto 2026
Rok Zakona EU o UI je resnicen. Pravila clena 10 se uporabijo od 2. avgusta 2026. Ce vasa ekipa gradi ali upravlja visoko tvegan sistem UI, ukrepajte zdaj. Cas je kratek.
Globe presegajo GDPR. Najvecja globa je 35 milijonov EUR ali 7 % globalnega letnega prometa. GDPR je omejen na 20 milijonov EUR ali 4 %. Noben drug zakon o UI nima visjih glob.
Kateri sistemi UI so visoko tvegani?
Zakon o UI razvrsca sisteme po tveganju. Visoko tvegani sistemi (Priloga III) pokrivajo UI, ki se uporablja v:
- Izobrazevanju -- dostop do sole ali ocenjevanje studentov
- Zaposlitvah -- presejanje zivljenjepisov, ocenjevanje intervjujev, nadzor delavcev
- Kljucnih storitvah -- kreditno ocenjevanje, zavarovalnistvo, dispecerstvo v sili
- Kazenskemu pregonu -- napovedovanje kriminalitete, biometricna ID
- Zdravstveni oskrbi -- programska oprema medicinskih naprav, trialaza pacientov
- Infrastrukturi -- upravljanje energije, vode ali prometa
- Pravosodju -- orodja za pravno raziskovanje, orodja za odmero kazni
Delate v katerem koli od teh podrocij? Clen 10 velja za vas.
Clen 10: Stiri kljucna pravila
Clen 10 postavlja pravila za nabore podatkov, ki jih uporabljajo visoko tvegani sistemi UI. Tule so stiri glavna.
1. Pisno upravljanje
Nabori podatkov morajo slediti "ustreznim praksam upravljanja in upravljanja podatkov". Potrebujete pisne korake za zbiranje, preverjanje kakovosti in tekoci pregled.
2. Testiranje za pristranskost
Evidence je treba preveriti za "mozne pristranskosti", ki bi lahko povzrocile nepravisne izhode. Zahtevano je aktivno testiranje. Izogibanje namerni pristranskosti ne zadostuje.
3. Natancnost in pokritost
Nabori podatkov morajo biti "relevantni, zadostno reprezentativni in brez napak". Skeniranja spleta, ki zgresi dolocene skupine, morda ne prestanejo tega preskusa.
4. Posebne vrste evidenc
Clen 10(5) je najneposrednejse pravilo. Ko visoko tvegani sistem uporablja evidence posebne kategorije -- zdravje, rasa, vera, politika, biometrika -- jih smete obdelovati le, ko je "strogo potrebno" za preverjanje pristranskosti. Prav tako morate uporabiti "ustrezne zavarovalnice". Ciscenje podatkov je ena najmocnejsih zavarovalnic, ki jih lahko uporabite.
Koncna ugotovitev: vecina naborov podatkov modelov UI vsebuje osebne evidence. Clen 10 pravi: uporabite minimum, ki je potreben, z mocnimi tehnicnimi zavarovalnicami.
Glejte naso stran pravne skladnosti in pregled varnosti za podrobnosti.
Ravni kazni
Zakon EU o UI ima tri ravni glob. Vse presegajo GDPR za isto vrsto krsitve:
| Predpis | Najvecja globa | Omejitev prometa |
|---|---|---|
| GDPR | 20 milijonov EUR | 4 % globalnega prometa |
| Zakon EU o UI (visoko tvegani) | 15 milijonov EUR | 3 % globalnega prometa |
| Zakon EU o UI (prepovedani) | 35 milijonov EUR | 7 % globalnega prometa |
Krsitve naborov podatkov spadajo v visoko tvegano raven (15 M EUR / 3 %). Ce regulator ugotovi, da je uporaba osebnih evidenc brez zavarovalnic prepovedano dejanje, velja zgornja raven.
Pravi primeri: 500 milijonov EUR prometa pri 3 % = 15 milijonov EUR globe. 5 milijard EUR prometa pri 3 % = 150 milijonov EUR globe. To so realne stevilke, ne teorija.
Zakaj ciscenje podatkov to resuje
Pravilno ociscene evidence spadajo zunaj obsega GDPR. To odstrani vecino bremena clena 10.
Trda pravila -- ravnanje s posebno kategorijo, preverjanja pristranskosti, pravice posameznikov do podatkov -- se uporabijo le, ko nabor podatkov vsebuje osebne evidence. Najprej odstranite te evidence. Breme vecinoma izgine.
CNIL (francoski organ za varstvo podatkov) je to jasno navedel zacetku leta 2026. Njegova smernica za UI pravi: ciscenje podatkov osebnih evidenc, ki niso potrebne za uspesnost modela, je primarni tehnicni ukrep za clen 10.
To ni manjsinski pogled. To je mnozicno stalisce vodilnega regulatorja EU za UI.
Kaj ciscenje podatkov pomeni v praksi
Ciscenje naborov podatkov modelov UI ni enako cistenju zivega produkcijskega zapisa. Nabori podatkov modelov lahko vsebujejo:
- Dokumente s PII -- pogodbe, e-posta, porocila, zahtevki za podporo
- Strukturirane evidence -- tabele strank, ki se uporabljajo za izgradnjo napovednih modelov
- Oznacena vsebina -- slike ali besedilo z opombami, ki vkljucujejo osebne podatke
- Sinteticne evidence -- kjer generiranje se vedno ohrani osebne vzorce
PII je treba zaznati v vseh teh formatih. Zamujanje ene vrste izpostavi cel nabor podatkov. Pogodba z odstranjenimi imeni, toda polnimi naslovi, bo model naucila povezovati lokacijo z demografskimi vzorci.
API anonym.legal obravnava paketno obdelavo za velike nabore podatkov UI. Zazna 285+ vrst entitet v 48 jezikih. Za evropska podjetja UI z vecjezicnimi nabori podatkov je pokritost veckratnih jezikov kriticna. Vrzel v enem jeziku ustvari tveganje Zakona EU o UI za celoten sistem.
Za vec o zaznavanju entitet glejte vodnik za sistem tokenov in referenco vrst entitet.
Prakticni koraki: Ciscenje nabora podatkov
Korak 1: Najprej revidirajte
Preden karkoli ocistite, zazenite prehod zaznave. To vam pove, kateri PII je prisoten:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Odziv navede vsako zaznano entiteto z vrsto, polozajem in oceno. Zazenite to cez vse datoteke, da vidite celoten obseg, preden zacnete.
Korak 2: Paketno ciscenje
Za velike nabore podatkov uporabite paketno koncno tocko za soucasno obdelavo vecih datotek:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Koncano: {result['id']} -- {len(result['items'])} entitet odstranjenih")
Korak 3: Vodite evidence
Clen 10 zahteva pisne evidence o tem, kar ste storili. Za vsak nabor podatkov shranite:
- Model zaznave in razlicico, ki sta bila uporabljena
- Katere vrste entitet so bile najdene in kako je bila vsaka zamenjana
- Stevilo odstranjenih entitet po naborih podatkov
- Datum ciscenja in razlicica nabora podatkov, ki je bila uporabljena
To izpolnjuje zahtevo po "praksah upravljanja in upravljanja podatkov" v clenu 10(2)(a).
Pogosta vprasanja
Ali ciscenje skodi kakovosti modela?
V vecini primerov ne. Model se uci vzorcev iz strukturе besedila, ne osebnih podrobnosti. Imena, telefonske stevilke in naslovi se lahko zamenjajo z ogradami, kot sta [NAME] ali [PHONE], in model se vseeno naucи enakih vzorcev. Mnoge raziskovalne ekipe so ugotovile, da ocisceni nabori podatkov dajejo modele enake kakovosti. Kljuc je v dslednih ogradah, da model vidi jasen vzorec.
Kaj, ce je moj nabor podatkov zelo velik?
Uporabite paketni API. Obravnava velike kolicine vzporedno. Cenovna stran kaze nacrti za primere z velikim obsegom. Mnoge ekipe vsak mesec obdelajo milijone evidenc.
Kaj pa nabori podatkov v drugem jeziku?
API podpira 48 jezikov. Vsak jezik uporablja model zaznave, usposobljen na tem jeziku. To pomeni, da so nemscina, francoscina, spanscina, japonscina in drugi vsi pokrit. Glejte FAQ za popoln seznam jezikov. Prav tako so podprti nabori podatkov v mesanem jeziku -- v paketni zahtevi lahko dolocite jezik po dokumentu.
Zakon o UI Colorada: Dva roka
Zakon o UI Colorada zacne veljati 30. junija 2026 -- pet tednov pred rokom EU. Postavlja podobna pravila za "visoko tvegane sisteme UI" po drzavni zakonodaji. Glavni poudarek je pristranskost in diskriminacija.
Ekipe tako v EU kot v Coloradu se soocajo z dvema rokoma hkrati. Ciscenje vaših naborov podatkov pomaga izpolniti oba zakona: clen 10 (EU) in coloradska pravila proti pristranskosti. Tehnicni koraki so enaki.
Ukrepajte zdaj
Pet mesecev je dovolj casa -- ce zacnete danes. Ni dovolj, ce cakate do junija.
Prakticen casovni nacrt:
- Tedni 1-2: Revidirajte nabore podatkov -- ugotovite, katere osebne evidence so prisotne
- Tedni 3-6: Zgradite in preizkusite cevovod ciscenja
- Tedni 7-10: Sestavite evidence upravljanja; pridobite pravni pregled
- Tedni 11-16: Potrdi -- potrdite, da ocisceni nabori podatkov izpolnjujejo pravila kakovosti clena 10
- 2. avgust: Datum uveljavljanja -- skladne prakse so vzpostavljene
API anonym.legal se prikljuci v vas trenutni cevovod brez velikih sprememb. Preverite cene za volumenske nacrti. FAQ pokriva pogosta vprasanja o clenu 10.
Uporabite kontrolni seznam skladnosti z GDPR za evidence, ki se prekrivajo med GDPR in clenom 10.
Zakon EU o UI je pripravljen za uveljavljanje. Ali bo vasa organizacija pripravljena do 2. avgusta?
Zacnite s kontrolnim seznamom skladnosti z GDPR ->
Omejitve in odprta vprasanja
Ciscenje podatkov za pravila Zakona o UI se se razvija. Tule so kljucne vrzeli.
Pragovi niso opredeljeni. Zakon EU o UI ne doloca, kaksen obseg ciscenja je "zadosten". Dokler Evropski urad za UI ne izda smernic, se soocate s pravnim tveganjem. Morda ne boste vedeli, ali bodo vase metode zadovoljile regulatorje.
Tveganje ponovne identifikacije ostaja. Raziskave kazejo, da veliki jezikovni modeli lahko memorizirajo in predvajajo vsebino iz svojih naborov podatkov. Evidence, ki so prestale standarde ciscenja pred razvojem modela, so morda se vedno izvozljive. Ciscenje pred razvojem tega tveganja ne odpravlja popolnoma.
Sinteticne evidence imajo omejitve. Sinteticno generiranje ohrani statisticne vzorce, toda lahko doda subtilne pristranskosti ali zamudi redke robne primere. Modeli, zgrajeni le na sinteticni vsebini, morda slabo delujejo na resnicnih vnosih.
Clen 10 se tolmaci. Besedna zveza "ustrezni tehnicni ukrepi" potrebuje razlago. Zgodnje delo DPA v drzavah clanicah EU se ni ustalilo na jasnih standardih. Skozi leto 2026 opazujte smernice EDPB in odlocitve drzav clanic.
Viri
- Zakon EU o UI, Uredba (EU) 2024/1689, cleni 9-17 (obveznosti visoko tveganega UI), UL L 2024/1689
- Zakon EU o UI, clen 10 -- Podatki in upravljanje podatkov
- Smernica CNIL za nabore podatkov UI, januar 2026
- Zakon o UI Colorada, SB 205, v veljavi od 30. junija 2026
- Casovnica Zakona EU o UI: prepovedane prakse 2. februarja 2025; visoko tvegani sistemi 2. avgusta 2026