Odsotevanje se je zacelo

Posodobljeno za leto 2026

Rok Zakona EU o UI je resnicen. Pravila clena 10 se uporabijo od 2. avgusta 2026. Ce vasa ekipa gradi ali upravlja visoko tvegan sistem UI, ukrepajte zdaj. Cas je kratek.

Globe presegajo GDPR. Najvecja globa je 35 milijonov EUR ali 7 % globalnega letnega prometa. GDPR je omejen na 20 milijonov EUR ali 4 %. Noben drug zakon o UI nima visjih glob.

Kateri sistemi UI so visoko tvegani?

Zakon o UI razvrsca sisteme po tveganju. Visoko tvegani sistemi (Priloga III) pokrivajo UI, ki se uporablja v:

Izobrazevanju -- dostop do sole ali ocenjevanje studentov
Zaposlitvah -- presejanje zivljenjepisov, ocenjevanje intervjujev, nadzor delavcev
Kljucnih storitvah -- kreditno ocenjevanje, zavarovalnistvo, dispecerstvo v sili
Kazenskemu pregonu -- napovedovanje kriminalitete, biometricna ID
Zdravstveni oskrbi -- programska oprema medicinskih naprav, trialaza pacientov
Infrastrukturi -- upravljanje energije, vode ali prometa
Pravosodju -- orodja za pravno raziskovanje, orodja za odmero kazni

Delate v katerem koli od teh podrocij? Clen 10 velja za vas.

Clen 10: Stiri kljucna pravila

Clen 10 postavlja pravila za nabore podatkov, ki jih uporabljajo visoko tvegani sistemi UI. Tule so stiri glavna.

1. Pisno upravljanje

Nabori podatkov morajo slediti "ustreznim praksam upravljanja in upravljanja podatkov". Potrebujete pisne korake za zbiranje, preverjanje kakovosti in tekoci pregled.

2. Testiranje za pristranskost

Evidence je treba preveriti za "mozne pristranskosti", ki bi lahko povzrocile nepravisne izhode. Zahtevano je aktivno testiranje. Izogibanje namerni pristranskosti ne zadostuje.

3. Natancnost in pokritost

Nabori podatkov morajo biti "relevantni, zadostno reprezentativni in brez napak". Skeniranja spleta, ki zgresi dolocene skupine, morda ne prestanejo tega preskusa.

4. Posebne vrste evidenc

Clen 10(5) je najneposrednejse pravilo. Ko visoko tvegani sistem uporablja evidence posebne kategorije -- zdravje, rasa, vera, politika, biometrika -- jih smete obdelovati le, ko je "strogo potrebno" za preverjanje pristranskosti. Prav tako morate uporabiti "ustrezne zavarovalnice". Ciscenje podatkov je ena najmocnejsih zavarovalnic, ki jih lahko uporabite.

Koncna ugotovitev: vecina naborov podatkov modelov UI vsebuje osebne evidence. Clen 10 pravi: uporabite minimum, ki je potreben, z mocnimi tehnicnimi zavarovalnicami.

Glejte naso stran pravne skladnosti in pregled varnosti za podrobnosti.

Ravni kazni

Zakon EU o UI ima tri ravni glob. Vse presegajo GDPR za isto vrsto krsitve:

Predpis	Najvecja globa	Omejitev prometa
GDPR	20 milijonov EUR	4 % globalnega prometa
Zakon EU o UI (visoko tvegani)	15 milijonov EUR	3 % globalnega prometa
Zakon EU o UI (prepovedani)	35 milijonov EUR	7 % globalnega prometa

Krsitve naborov podatkov spadajo v visoko tvegano raven (15 M EUR / 3 %). Ce regulator ugotovi, da je uporaba osebnih evidenc brez zavarovalnic prepovedano dejanje, velja zgornja raven.

Pravi primeri: 500 milijonov EUR prometa pri 3 % = 15 milijonov EUR globe. 5 milijard EUR prometa pri 3 % = 150 milijonov EUR globe. To so realne stevilke, ne teorija.

Zakaj ciscenje podatkov to resuje

Pravilno ociscene evidence spadajo zunaj obsega GDPR. To odstrani vecino bremena clena 10.

Trda pravila -- ravnanje s posebno kategorijo, preverjanja pristranskosti, pravice posameznikov do podatkov -- se uporabijo le, ko nabor podatkov vsebuje osebne evidence. Najprej odstranite te evidence. Breme vecinoma izgine.

CNIL (francoski organ za varstvo podatkov) je to jasno navedel zacetku leta 2026. Njegova smernica za UI pravi: ciscenje podatkov osebnih evidenc, ki niso potrebne za uspesnost modela, je primarni tehnicni ukrep za clen 10.

To ni manjsinski pogled. To je mnozicno stalisce vodilnega regulatorja EU za UI.

Kaj ciscenje podatkov pomeni v praksi

Ciscenje naborov podatkov modelov UI ni enako cistenju zivega produkcijskega zapisa. Nabori podatkov modelov lahko vsebujejo:

Dokumente s PII -- pogodbe, e-posta, porocila, zahtevki za podporo
Strukturirane evidence -- tabele strank, ki se uporabljajo za izgradnjo napovednih modelov
Oznacena vsebina -- slike ali besedilo z opombami, ki vkljucujejo osebne podatke
Sinteticne evidence -- kjer generiranje se vedno ohrani osebne vzorce

PII je treba zaznati v vseh teh formatih. Zamujanje ene vrste izpostavi cel nabor podatkov. Pogodba z odstranjenimi imeni, toda polnimi naslovi, bo model naucila povezovati lokacijo z demografskimi vzorci.

API anonym.legal obravnava paketno obdelavo za velike nabore podatkov UI. Zazna 285+ vrst entitet v 48 jezikih. Za evropska podjetja UI z vecjezicnimi nabori podatkov je pokritost veckratnih jezikov kriticna. Vrzel v enem jeziku ustvari tveganje Zakona EU o UI za celoten sistem.

Za vec o zaznavanju entitet glejte vodnik za sistem tokenov in referenco vrst entitet.

Prakticni koraki: Ciscenje nabora podatkov

Korak 1: Najprej revidirajte

Preden karkoli ocistite, zazenite prehod zaznave. To vam pove, kateri PII je prisoten:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Odziv navede vsako zaznano entiteto z vrsto, polozajem in oceno. Zazenite to cez vse datoteke, da vidite celoten obseg, preden zacnete.

Korak 2: Paketno ciscenje

Za velike nabore podatkov uporabite paketno koncno tocko za soucasno obdelavo vecih datotek:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Koncano: {result['id']} -- {len(result['items'])} entitet odstranjenih")

Korak 3: Vodite evidence

Clen 10 zahteva pisne evidence o tem, kar ste storili. Za vsak nabor podatkov shranite:

Model zaznave in razlicico, ki sta bila uporabljena
Katere vrste entitet so bile najdene in kako je bila vsaka zamenjana
Stevilo odstranjenih entitet po naborih podatkov
Datum ciscenja in razlicica nabora podatkov, ki je bila uporabljena

To izpolnjuje zahtevo po "praksah upravljanja in upravljanja podatkov" v clenu 10(2)(a).

Pogosta vprasanja

Ali ciscenje skodi kakovosti modela?

V vecini primerov ne. Model se uci vzorcev iz strukturе besedila, ne osebnih podrobnosti. Imena, telefonske stevilke in naslovi se lahko zamenjajo z ogradami, kot sta [NAME] ali [PHONE], in model se vseeno naucи enakih vzorcev. Mnoge raziskovalne ekipe so ugotovile, da ocisceni nabori podatkov dajejo modele enake kakovosti. Kljuc je v dslednih ogradah, da model vidi jasen vzorec.

Kaj, ce je moj nabor podatkov zelo velik?

Uporabite paketni API. Obravnava velike kolicine vzporedno. Cenovna stran kaze nacrti za primere z velikim obsegom. Mnoge ekipe vsak mesec obdelajo milijone evidenc.

Kaj pa nabori podatkov v drugem jeziku?

API podpira 48 jezikov. Vsak jezik uporablja model zaznave, usposobljen na tem jeziku. To pomeni, da so nemscina, francoscina, spanscina, japonscina in drugi vsi pokrit. Glejte FAQ za popoln seznam jezikov. Prav tako so podprti nabori podatkov v mesanem jeziku -- v paketni zahtevi lahko dolocite jezik po dokumentu.

Zakon o UI Colorada: Dva roka

Zakon o UI Colorada zacne veljati 30. junija 2026 -- pet tednov pred rokom EU. Postavlja podobna pravila za "visoko tvegane sisteme UI" po drzavni zakonodaji. Glavni poudarek je pristranskost in diskriminacija.

Ekipe tako v EU kot v Coloradu se soocajo z dvema rokoma hkrati. Ciscenje vaših naborov podatkov pomaga izpolniti oba zakona: clen 10 (EU) in coloradska pravila proti pristranskosti. Tehnicni koraki so enaki.

Ukrepajte zdaj

Pet mesecev je dovolj casa -- ce zacnete danes. Ni dovolj, ce cakate do junija.

Prakticen casovni nacrt:

Tedni 1-2: Revidirajte nabore podatkov -- ugotovite, katere osebne evidence so prisotne
Tedni 3-6: Zgradite in preizkusite cevovod ciscenja
Tedni 7-10: Sestavite evidence upravljanja; pridobite pravni pregled
Tedni 11-16: Potrdi -- potrdite, da ocisceni nabori podatkov izpolnjujejo pravila kakovosti clena 10
2. avgust: Datum uveljavljanja -- skladne prakse so vzpostavljene

API anonym.legal se prikljuci v vas trenutni cevovod brez velikih sprememb. Preverite cene za volumenske nacrti. FAQ pokriva pogosta vprasanja o clenu 10.

Uporabite kontrolni seznam skladnosti z GDPR za evidence, ki se prekrivajo med GDPR in clenom 10.

Zakon EU o UI je pripravljen za uveljavljanje. Ali bo vasa organizacija pripravljena do 2. avgusta?

Zacnite s kontrolnim seznamom skladnosti z GDPR ->

Omejitve in odprta vprasanja

Ciscenje podatkov za pravila Zakona o UI se se razvija. Tule so kljucne vrzeli.

Pragovi niso opredeljeni. Zakon EU o UI ne doloca, kaksen obseg ciscenja je "zadosten". Dokler Evropski urad za UI ne izda smernic, se soocate s pravnim tveganjem. Morda ne boste vedeli, ali bodo vase metode zadovoljile regulatorje.

Tveganje ponovne identifikacije ostaja. Raziskave kazejo, da veliki jezikovni modeli lahko memorizirajo in predvajajo vsebino iz svojih naborov podatkov. Evidence, ki so prestale standarde ciscenja pred razvojem modela, so morda se vedno izvozljive. Ciscenje pred razvojem tega tveganja ne odpravlja popolnoma.

Sinteticne evidence imajo omejitve. Sinteticno generiranje ohrani statisticne vzorce, toda lahko doda subtilne pristranskosti ali zamudi redke robne primere. Modeli, zgrajeni le na sinteticni vsebini, morda slabo delujejo na resnicnih vnosih.

Clen 10 se tolmaci. Besedna zveza "ustrezni tehnicni ukrepi" potrebuje razlago. Zgodnje delo DPA v drzavah clanicah EU se ni ustalilo na jasnih standardih. Skozi leto 2026 opazujte smernice EDPB in odlocitve drzav clanic.

Viri

Zakon EU o UI, Uredba (EU) 2024/1689, cleni 9-17 (obveznosti visoko tveganega UI), UL L 2024/1689
Zakon EU o UI, clen 10 -- Podatki in upravljanje podatkov
Smernica CNIL za nabore podatkov UI, januar 2026
Zakon o UI Colorada, SB 205, v veljavi od 30. junija 2026
Casovnica Zakona EU o UI: prepovedane prakse 2. februarja 2025; visoko tvegani sistemi 2. avgusta 2026

Sorodni članki

GDPR in skladnost

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

Začnite brezplačno preizkušnjo Ogled funkcij

Zakon EU o UI, avgust 2026: Anonimizacija podatkov za usposabljanje po clenu 10

Odsotevanje se je zacelo

Kateri sistemi UI so visoko tvegani?

Clen 10: Stiri kljucna pravila

Ravni kazni

Zakaj ciscenje podatkov to resuje

Kaj ciscenje podatkov pomeni v praksi

Prakticni koraki: Ciscenje nabora podatkov

Pogosta vprasanja

Zakon o UI Colorada: Dva roka

Ukrepajte zdaj

Omejitve in odprta vprasanja

Viri

Sorodni članki

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Ste pripravljeni zaščititi svoje podatke?

Zakon EU o UI, avgust 2026: Anonimizacija podatkov za usposabljanje po clenu 10

Odsotevanje se je zacelo

Kateri sistemi UI so visoko tvegani?

Clen 10: Stiri kljucna pravila

Ravni kazni

Zakaj ciscenje podatkov to resuje

Kaj ciscenje podatkov pomeni v praksi

Prakticni koraki: Ciscenje nabora podatkov

Pogosta vprasanja

Zakon o UI Colorada: Dva roka

Ukrepajte zdaj

Omejitve in odprta vprasanja

Viri

Sorodni članki

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Ste pripravljeni zaščititi svoje podatke?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow