anonym.legal
Nazaj na blogGDPR in skladnost

Zakon EU o UI, avgust 2026: Anonimizacija podatkov za usposabljanje po clenu 10

Polno uveljavljanje Zakona EU o UI se zacne 2. avgusta 2026. Globe do 35 milijonov EUR ali 7 % globalnega prometa. Clen 10 zahteva anonimizacijo podatkov za usposabljanje.

March 16, 20269 min branja
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Odsotevanje se je zacelo

Posodobljeno za leto 2026

Rok Zakona EU o UI je resnicen. Pravila clena 10 se uporabijo od 2. avgusta 2026. Ce vasa ekipa gradi ali upravlja visoko tvegan sistem UI, ukrepajte zdaj. Cas je kratek.

Globe presegajo GDPR. Najvecja globa je 35 milijonov EUR ali 7 % globalnega letnega prometa. GDPR je omejen na 20 milijonov EUR ali 4 %. Noben drug zakon o UI nima visjih glob.

Kateri sistemi UI so visoko tvegani?

Zakon o UI razvrsca sisteme po tveganju. Visoko tvegani sistemi (Priloga III) pokrivajo UI, ki se uporablja v:

  • Izobrazevanju -- dostop do sole ali ocenjevanje studentov
  • Zaposlitvah -- presejanje zivljenjepisov, ocenjevanje intervjujev, nadzor delavcev
  • Kljucnih storitvah -- kreditno ocenjevanje, zavarovalnistvo, dispecerstvo v sili
  • Kazenskemu pregonu -- napovedovanje kriminalitete, biometricna ID
  • Zdravstveni oskrbi -- programska oprema medicinskih naprav, trialaza pacientov
  • Infrastrukturi -- upravljanje energije, vode ali prometa
  • Pravosodju -- orodja za pravno raziskovanje, orodja za odmero kazni

Delate v katerem koli od teh podrocij? Clen 10 velja za vas.

Clen 10: Stiri kljucna pravila

Clen 10 postavlja pravila za nabore podatkov, ki jih uporabljajo visoko tvegani sistemi UI. Tule so stiri glavna.

1. Pisno upravljanje

Nabori podatkov morajo slediti "ustreznim praksam upravljanja in upravljanja podatkov". Potrebujete pisne korake za zbiranje, preverjanje kakovosti in tekoci pregled.

2. Testiranje za pristranskost

Evidence je treba preveriti za "mozne pristranskosti", ki bi lahko povzrocile nepravisne izhode. Zahtevano je aktivno testiranje. Izogibanje namerni pristranskosti ne zadostuje.

3. Natancnost in pokritost

Nabori podatkov morajo biti "relevantni, zadostno reprezentativni in brez napak". Skeniranja spleta, ki zgresi dolocene skupine, morda ne prestanejo tega preskusa.

4. Posebne vrste evidenc

Clen 10(5) je najneposrednejse pravilo. Ko visoko tvegani sistem uporablja evidence posebne kategorije -- zdravje, rasa, vera, politika, biometrika -- jih smete obdelovati le, ko je "strogo potrebno" za preverjanje pristranskosti. Prav tako morate uporabiti "ustrezne zavarovalnice". Ciscenje podatkov je ena najmocnejsih zavarovalnic, ki jih lahko uporabite.

Koncna ugotovitev: vecina naborov podatkov modelov UI vsebuje osebne evidence. Clen 10 pravi: uporabite minimum, ki je potreben, z mocnimi tehnicnimi zavarovalnicami.

Glejte naso stran pravne skladnosti in pregled varnosti za podrobnosti.

Ravni kazni

Zakon EU o UI ima tri ravni glob. Vse presegajo GDPR za isto vrsto krsitve:

PredpisNajvecja globaOmejitev prometa
GDPR20 milijonov EUR4 % globalnega prometa
Zakon EU o UI (visoko tvegani)15 milijonov EUR3 % globalnega prometa
Zakon EU o UI (prepovedani)35 milijonov EUR7 % globalnega prometa

Krsitve naborov podatkov spadajo v visoko tvegano raven (15 M EUR / 3 %). Ce regulator ugotovi, da je uporaba osebnih evidenc brez zavarovalnic prepovedano dejanje, velja zgornja raven.

Pravi primeri: 500 milijonov EUR prometa pri 3 % = 15 milijonov EUR globe. 5 milijard EUR prometa pri 3 % = 150 milijonov EUR globe. To so realne stevilke, ne teorija.

Zakaj ciscenje podatkov to resuje

Pravilno ociscene evidence spadajo zunaj obsega GDPR. To odstrani vecino bremena clena 10.

Trda pravila -- ravnanje s posebno kategorijo, preverjanja pristranskosti, pravice posameznikov do podatkov -- se uporabijo le, ko nabor podatkov vsebuje osebne evidence. Najprej odstranite te evidence. Breme vecinoma izgine.

CNIL (francoski organ za varstvo podatkov) je to jasno navedel zacetku leta 2026. Njegova smernica za UI pravi: ciscenje podatkov osebnih evidenc, ki niso potrebne za uspesnost modela, je primarni tehnicni ukrep za clen 10.

To ni manjsinski pogled. To je mnozicno stalisce vodilnega regulatorja EU za UI.

Kaj ciscenje podatkov pomeni v praksi

Ciscenje naborov podatkov modelov UI ni enako cistenju zivega produkcijskega zapisa. Nabori podatkov modelov lahko vsebujejo:

  • Dokumente s PII -- pogodbe, e-posta, porocila, zahtevki za podporo
  • Strukturirane evidence -- tabele strank, ki se uporabljajo za izgradnjo napovednih modelov
  • Oznacena vsebina -- slike ali besedilo z opombami, ki vkljucujejo osebne podatke
  • Sinteticne evidence -- kjer generiranje se vedno ohrani osebne vzorce

PII je treba zaznati v vseh teh formatih. Zamujanje ene vrste izpostavi cel nabor podatkov. Pogodba z odstranjenimi imeni, toda polnimi naslovi, bo model naucila povezovati lokacijo z demografskimi vzorci.

API anonym.legal obravnava paketno obdelavo za velike nabore podatkov UI. Zazna 285+ vrst entitet v 48 jezikih. Za evropska podjetja UI z vecjezicnimi nabori podatkov je pokritost veckratnih jezikov kriticna. Vrzel v enem jeziku ustvari tveganje Zakona EU o UI za celoten sistem.

Za vec o zaznavanju entitet glejte vodnik za sistem tokenov in referenco vrst entitet.

Prakticni koraki: Ciscenje nabora podatkov

Korak 1: Najprej revidirajte

Preden karkoli ocistite, zazenite prehod zaznave. To vam pove, kateri PII je prisoten:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Odziv navede vsako zaznano entiteto z vrsto, polozajem in oceno. Zazenite to cez vse datoteke, da vidite celoten obseg, preden zacnete.

Korak 2: Paketno ciscenje

Za velike nabore podatkov uporabite paketno koncno tocko za soucasno obdelavo vecih datotek:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Koncano: {result['id']} -- {len(result['items'])} entitet odstranjenih")

Korak 3: Vodite evidence

Clen 10 zahteva pisne evidence o tem, kar ste storili. Za vsak nabor podatkov shranite:

  • Model zaznave in razlicico, ki sta bila uporabljena
  • Katere vrste entitet so bile najdene in kako je bila vsaka zamenjana
  • Stevilo odstranjenih entitet po naborih podatkov
  • Datum ciscenja in razlicica nabora podatkov, ki je bila uporabljena

To izpolnjuje zahtevo po "praksah upravljanja in upravljanja podatkov" v clenu 10(2)(a).

Pogosta vprasanja

Ali ciscenje skodi kakovosti modela?

V vecini primerov ne. Model se uci vzorcev iz strukturе besedila, ne osebnih podrobnosti. Imena, telefonske stevilke in naslovi se lahko zamenjajo z ogradami, kot sta [NAME] ali [PHONE], in model se vseeno naucи enakih vzorcev. Mnoge raziskovalne ekipe so ugotovile, da ocisceni nabori podatkov dajejo modele enake kakovosti. Kljuc je v dslednih ogradah, da model vidi jasen vzorec.

Kaj, ce je moj nabor podatkov zelo velik?

Uporabite paketni API. Obravnava velike kolicine vzporedno. Cenovna stran kaze nacrti za primere z velikim obsegom. Mnoge ekipe vsak mesec obdelajo milijone evidenc.

Kaj pa nabori podatkov v drugem jeziku?

API podpira 48 jezikov. Vsak jezik uporablja model zaznave, usposobljen na tem jeziku. To pomeni, da so nemscina, francoscina, spanscina, japonscina in drugi vsi pokrit. Glejte FAQ za popoln seznam jezikov. Prav tako so podprti nabori podatkov v mesanem jeziku -- v paketni zahtevi lahko dolocite jezik po dokumentu.

Zakon o UI Colorada: Dva roka

Zakon o UI Colorada zacne veljati 30. junija 2026 -- pet tednov pred rokom EU. Postavlja podobna pravila za "visoko tvegane sisteme UI" po drzavni zakonodaji. Glavni poudarek je pristranskost in diskriminacija.

Ekipe tako v EU kot v Coloradu se soocajo z dvema rokoma hkrati. Ciscenje vaših naborov podatkov pomaga izpolniti oba zakona: clen 10 (EU) in coloradska pravila proti pristranskosti. Tehnicni koraki so enaki.

Ukrepajte zdaj

Pet mesecev je dovolj casa -- ce zacnete danes. Ni dovolj, ce cakate do junija.

Prakticen casovni nacrt:

  1. Tedni 1-2: Revidirajte nabore podatkov -- ugotovite, katere osebne evidence so prisotne
  2. Tedni 3-6: Zgradite in preizkusite cevovod ciscenja
  3. Tedni 7-10: Sestavite evidence upravljanja; pridobite pravni pregled
  4. Tedni 11-16: Potrdi -- potrdite, da ocisceni nabori podatkov izpolnjujejo pravila kakovosti clena 10
  5. 2. avgust: Datum uveljavljanja -- skladne prakse so vzpostavljene

API anonym.legal se prikljuci v vas trenutni cevovod brez velikih sprememb. Preverite cene za volumenske nacrti. FAQ pokriva pogosta vprasanja o clenu 10.

Uporabite kontrolni seznam skladnosti z GDPR za evidence, ki se prekrivajo med GDPR in clenom 10.

Zakon EU o UI je pripravljen za uveljavljanje. Ali bo vasa organizacija pripravljena do 2. avgusta?

Zacnite s kontrolnim seznamom skladnosti z GDPR ->

Omejitve in odprta vprasanja

Ciscenje podatkov za pravila Zakona o UI se se razvija. Tule so kljucne vrzeli.

Pragovi niso opredeljeni. Zakon EU o UI ne doloca, kaksen obseg ciscenja je "zadosten". Dokler Evropski urad za UI ne izda smernic, se soocate s pravnim tveganjem. Morda ne boste vedeli, ali bodo vase metode zadovoljile regulatorje.

Tveganje ponovne identifikacije ostaja. Raziskave kazejo, da veliki jezikovni modeli lahko memorizirajo in predvajajo vsebino iz svojih naborov podatkov. Evidence, ki so prestale standarde ciscenja pred razvojem modela, so morda se vedno izvozljive. Ciscenje pred razvojem tega tveganja ne odpravlja popolnoma.

Sinteticne evidence imajo omejitve. Sinteticno generiranje ohrani statisticne vzorce, toda lahko doda subtilne pristranskosti ali zamudi redke robne primere. Modeli, zgrajeni le na sinteticni vsebini, morda slabo delujejo na resnicnih vnosih.

Clen 10 se tolmaci. Besedna zveza "ustrezni tehnicni ukrepi" potrebuje razlago. Zgodnje delo DPA v drzavah clanicah EU se ni ustalilo na jasnih standardih. Skozi leto 2026 opazujte smernice EDPB in odlocitve drzav clanic.

Viri

  • Zakon EU o UI, Uredba (EU) 2024/1689, cleni 9-17 (obveznosti visoko tveganega UI), UL L 2024/1689
  • Zakon EU o UI, clen 10 -- Podatki in upravljanje podatkov
  • Smernica CNIL za nabore podatkov UI, januar 2026
  • Zakon o UI Colorada, SB 205, v veljavi od 30. junija 2026
  • Casovnica Zakona EU o UI: prepovedane prakse 2. februarja 2025; visoko tvegani sistemi 2. avgusta 2026

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.