Atgal į BlogąGDPR ir Atitiktis

ES DI aktas 2026 m. rugpjutis: Mokymo duomenų anonimizavimas pagal 10 straipsnį

Visas ES DI akto vykdymas prasideda 2026 m. rugpjucio 2 d. Baudos iki 35 mln. EUR arba 7% pasaulinio apyvartos. 10 straipsnis reikalauja mokymo duomenų anonimizavimo.

March 16, 20269 min skaityti
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Atgalinis skaičiavimas prasidėjo

Atnaujinta 2026 m.

ES DI akto terminas yra realus. 10 straipsnio taisyklės taikomos nuo 2026 m. rugpjucio 2 d. Jei jūsų komanda kuria arba valdo didelės rizikos DI sistemą, veikite dabar. Laikas trumpas.

Baudos yra didesnės nei pagal BDAR. Maksimali bauda yra 35 mln. EUR arba 7% pasaulinio metinio apyvartos. BDAR apriboja iki 20 mln. EUR arba 4%. Joks kitas DI įstatymas neturi aukštesnių baudų.

Kurios DI sistemos yra didelės rizikos?

DI aktas skirsto sistemas pagal riziką. Didelės rizikos sistemos (III priedas) apima DI, naudojamą:

  • Švietime — mokyklos prieiga arba mokinių vertinimas
  • Darbe — CV tikrinimas, interviu vertinimas, darbuotojų stebėjimas
  • Pagrindinėse paslaugose — kreditų vertinimas, draudimo kainodara, skubios pagalbos išsiuntimas
  • Teisėsaugoje — nusikaltimų prognozavimas, biometrinis ID
  • Sveikatos apsaugoje — medicinos prietaiso programinė įranga, pacientų triažas
  • Infrastruktūroje — energijos, vandens ar transporto valdymas
  • Teisingumo sistemoje — teisinio tyrimo įrankiai, bausmių įrankiai

Dirbate bet kurioje iš šių sričių? 10 straipsnis taikomas jums.

10 straipsnis: keturios pagrindinės taisyklės

10 straipsnis nustato taisykles didelės rizikos DI sistemų naudojamoms duomenų rinkiniams. Štai keturios pagrindinės.

1. Rašytinis valdymas

Duomenų rinkiniai turi atitikti "tinkamas duomenų valdymo ir tvarkymo praktikas". Jums reikia rašytinių žingsnių rinkimui, kokybės patikrinimams ir nuolatinei peržiūrai.

2. Šališkumo testavimas

Įrašai turi būti patikrinti dėl "galimų šališkumų", kurie galėtų sukelti nesąžiningą išvestį. Reikalingas aktyvus testavimas. Vengti tyčinio šališkumo nepakanka.

3. Tikslumas ir aprėptis

Duomenų rinkiniai turi būti "tinkami, pakankamai reprezentatyvūs ir be klaidų". Žiniatinklio nuskaitymai, praleidžiantys tam tikras grupes, gali neišlaikyti šio testo.

4. Specialių duomenų tipai

10 straipsnio 5 dalis yra tiesioginiausia taisyklė. Kai didelės rizikos sistema naudoja specialių kategorijų duomenis — sveikata, rasė, religija, politika, biometrika — galite juos apdoroti tik tada, kai tai "griežtai būtina" šališkumo patikroms. Taip pat turite taikyti "tinkamas apsaugos priemones". Duomenų valymas yra viena stipriausių apsaugos priemonių, kurias galite naudoti.

Esmė: dauguma DI modelių duomenų rinkinių laiko asmens duomenis. 10 straipsnis sako naudoti minimaliai reikalingą, su stipriomis techninėmis apsaugos priemonėmis.

Žr. mūsų teisinės atitikties puslapį ir saugumo apžvalgą dėl išsamesnės informacijos.

Baudų pakopos

ES DI aktas turi tris baudų pakopas. Visos jos viršija BDAR tą pačio tipo pažeidimui:

ReglamentasMaks. baudaApyvartos viršutinė riba
BDAR20 mln. EUR4% pasaulinės apyvartos
ES DI aktas (didelės rizikos)15 mln. EUR3% pasaulinės apyvartos
ES DI aktas (draudžiamas)35 mln. EUR7% pasaulinės apyvartos

Duomenų rinkinių pažeidimai patenka į didelės rizikos pakopą (15 mln. EUR / 3%). Jei reguliuotojas nustato, kad asmens duomenų naudojimas be apsaugos priemonių yra draudžiamas veiksmas, taikoma aukščiausia pakopa.

Realūs pavyzdžiai: 500 mln. EUR apyvarta prie 3% = 15 mln. EUR bauda. 5 mlrd. EUR apyvarta prie 3% = 150 mln. EUR bauda. Tai realūs skaičiai, ne teorija.

Kodėl duomenų valymas tai išsprendžia

Tinkamai išvalyti duomenys nepatenka į BDAR taikymo sritį. Tai pašalina didžiąją dalį 10 straipsnio naštos.

Sunkios taisyklės — specialių kategorijų tvarkymas, šališkumo patikrinimai, duomenų subjektų teisės — taikomos tik tada, kai duomenų rinkinys laiko asmens duomenis. Pirma pašalinkite tuos duomenis. Našta dažniausiai išnyksta.

CNIL (Prancūzijos duomenų institucija) tai aiškiai nurodė 2026 m. pradžioje. Jos DI gairės sako: asmens duomenų, nereikalingų modelio veikimui, duomenų valymas yra pagrindinė techninė priemonė 10 straipsniui.

Tai nėra kraštutinė nuomonė. Tai pagrindinė ES pagrindinio DI reguliuotojo pozicija.

Ką duomenų valymas reiškia praktiškai

DI modelių duomenų rinkinių valymas nėra tas pats, kas gyvų gamybos duomenų valymas. Modelių duomenų rinkiniai gali laikyti:

  • Dokumentus su ADA — sutartis, el. laiškus, ataskaitas, palaikymo bilietus
  • Struktūrizuotus įrašus — klientų lenteles, naudojamas prognoziniams modeliams kurti
  • Pažymėtą turinį — vaizdus ar tekstą su pastabomis, apimančiomis asmens duomenis
  • Sintetinius įrašus — kur generavimas vis tiek gali išsaugoti asmeninius šablonus

Turite aptikti ADA visuose šiuose formatuose. Vieno tipo praleidimas atskleidžia visą duomenų rinkinį. Sutartis su pašalintais vardais, bet pilnais adresais vis tiek moko modelį susieti buvimo vietą su demografiniais šablonais.

anonym.legal API tvarko paketinį apdorojimą dideliems DI duomenų rinkiniams. Ji aptinka 285+ objektų tipų 48 kalbomis. Europos DI įmonėms su daugiakalbiais duomenų rinkiniais kryžminis kalbų aprėptis yra kritiškai svarbus. Spraga vienoje kalboje sukuria ES DI akto riziką visoje sistemoje.

Daugiau apie objektų aptikimą žr. žetonų sistemos gide ir objektų tipų nuorodoje.

Praktiniai žingsniai: jūsų duomenų rinkinio valymas

1 žingsnis: Pirmiausia auditas

Prieš valant ką nors, vykdykite aptikimo praėjimą. Tai pasako, kokie ADA yra:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Atsakymas išvardija kiekvieną aptiktą objektą su jo tipu, pozicija ir balu. Paleiskite šį per visus failus, kad pamatytumėte visą apimtį prieš pradedant.

2 žingsnis: Paketo valymas

Dideliems duomenų rinkiniams naudokite paketo galutinį tašką keliems failams vienu metu apdoroti:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Atlikta: {result['id']} - {len(result['items'])} objektai pašalinti")

3 žingsnis: Saugokite įrašus

10 straipsnis reikalauja rašytinių įrašų apie tai, ką darėte. Kiekvienam duomenų rinkiniui saugokite:

  • Naudotą aptikimo modelį ir versiją
  • Kokius objektų tipus buvo rasta ir kaip kiekvienas buvo pakeistas
  • Pašalintų objektų skaičių kiekvienam duomenų rinkiniui
  • Valymo datą ir naudotą duomenų rinkinio versiją

Tai atitinka "duomenų valdymo ir tvarkymo praktikas" reikalavimą 10 straipsnio 2 dalies a punkte.

Dažni klausimai

Ar valymas sugadina modelio kokybę?

Daugumoje atvejų ne. Modelis mokosi šablonus iš teksto struktūros, o ne asmeninių detalių. Vardai, telefono numeriai ir adresai gali būti pakeisti vietos rezervuotojais kaip [NAME] ar [PHONE] ir modelis vis tiek mokosi tuos pačius šablonus. Daugelis tyrimų komandų nustatė, kad išvalyti duomenų rinkiniai sukuria vienodos kokybės modelius. Raktas yra naudoti nuoseklius vietos rezervuotojus, kad modelis matytų aiškų šabloną.

O jei mano duomenų rinkinys labai didelis?

Naudokite paketo API. Jis tvarko didelius kiekius lygiagrečiai. Kainų puslapis rodo planus didelės apimties naudojimo atvejams. Daugelis komandų per mėnesį apdoroja milijonus įrašų.

O ne angliški duomenų rinkiniai?

API palaiko 48 kalbas. Kiekviena kalba naudoja aptikimo modelį, apmokytą ta kalba. Tai reiškia, kad vokiečių, prancūzų, ispanų, japonų ir kitos kalbos yra apimtos. Žr. DUK dėl viso kalbų sąrašo. Mišrių kalbų duomenų rinkiniai taip pat palaikomi — galite nurodyti kalbą kiekvienam dokumentui paketo užklausoje.

Kolorado DI aktas: du terminai

Kolorado DI aktas įsigalioja 2026 m. birželio 30 d. — penkiomis savaitėmis anksčiau nei ES terminas. Jis nustato panašias taisykles "didelės rizikos DI sistemoms" pagal valstijos teisę. Pagrindinis dėmesys skirtas šališkumui ir diskriminacijai.

Komandos tiek ES, tiek Kolorade susiduria su dviem terminais vienu metu. Jūsų duomenų rinkinių valymas padeda atitikti abu įstatymus: 10 straipsnį (ES) ir Kolorado kovos su šališkumu taisykles. Techniniai žingsniai yra tie patys.

Veikite dabar

Penki mėnesiai yra pakankamai laiko — jei pradėsite šiandien. Nepakankamai, jei lauksit iki birželio.

Praktiškas laiko grafikas:

  1. 1–2 savaitės: Audituokite savo duomenų rinkinius — sužinokite, kokie asmens duomenys yra
  2. 3–6 savaitės: Sukurkite ir išbandykite valymo konvejerį
  3. 7–10 savaitės: Surašykite valdymo įrašus; gaukite teisinio peržiūrėjimo
  4. 11–16 savaitės: Patvirtinkite — įsitikinkite, kad išvalyti duomenų rinkiniai atitinka 10 straipsnio kokybės taisykles
  5. Rugpjucio 2 d.: Vykdymo data — atitinkančios praktikos veikiančios

anonym.legal API integruojasi į jūsų dabartinį konvejerį be didelių pakeitimų. Patikrinkite kainodarą dėl apimties planų. DUK apima dažnus 10 straipsnio klausimus.

Naudokite BDAR atitikties kontrolinį sąrašą duomenims, kurie sutampa tarp BDAR ir 10 straipsnio.

ES DI aktas yra pasiruošęs vykdymui. Ar jūsų organizacija bus pasiruošusi iki rugpjucio 2 d.?

Pradėkite nuo BDAR atitikties kontrolinio sąrašo →

Apribojimai ir atviri klausimai

Duomenų valymas pagal DI akto taisykles vis dar vystosi. Štai pagrindinės spragos.

Ribos nėra apibrėžtos. ES DI aktas nenurodo, koks valymo lygis yra "pakankamas". Kol Europos DI biuras nepateiks gairių, jūs susiduriate su teisine rizika. Gali būti nežinoma, ar jūsų metodas patenkins reguliuotojus.

Pakartotinio identifikavimo rizika išlieka. Tyrimai rodo, kad dideli kalbos modeliai gali įsiminti ir pakartoti turinį iš savo duomenų rinkinių. Įrašai, praėję valymo standartus prieš modelio kūrimą, vis tiek gali būti išgaunami. Valymas prieš kūrimą visiškai to neišsprendžia.

Sintetiniai įrašai turi apribojimų. Sintetinis generavimas išsaugo statistinius šablonus, tačiau gali pridėti subtilių šališkumų arba praleisti retus kraštutinumus. Modeliai, sukurti tik iš sintetinio turinio, gali prastai veikti su realiais įvestimis.

10 straipsnis vis dar interpretuojamas. Frazė "tinkamos techninės priemonės" reikalauja interpretacijos. Ankstyvojo DPA darbo ES valstybėse narėse nesusitarė dėl aiškių standartų. Stebėkite EDPB gaires ir valstybių narių sprendimus per 2026 m.

Šaltiniai

  • ES DI aktas, Reglamentas (ES) 2024/1689, 9–17 straipsniai (didelės rizikos DI įsipareigojimai), OL L 2024/1689
  • ES DI aktas, 10 straipsnis — Duomenys ir duomenų valdymas
  • CNIL DI duomenų rinkinių gairės, 2026 m. sausis
  • Kolorado DI aktas, SB 205, galioja nuo 2026 m. birželio 30 d.
  • ES DI akto laiko grafikas: draudžiamos praktikos 2025 m. vasario 2 d.; didelės rizikos sistemos 2026 m. rugpjucio 2 d.

Pasiruošę apsaugoti savo duomenis?

Pradėkite anonimizuoti PII su 285+ subjektų tipais 48 kalbomis.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.