Atgalinis skaičiavimas prasidėjo

Atnaujinta 2026 m.

ES DI akto terminas yra realus. 10 straipsnio taisyklės taikomos nuo 2026 m. rugpjucio 2 d. Jei jūsų komanda kuria arba valdo didelės rizikos DI sistemą, veikite dabar. Laikas trumpas.

Baudos yra didesnės nei pagal BDAR. Maksimali bauda yra 35 mln. EUR arba 7% pasaulinio metinio apyvartos. BDAR apriboja iki 20 mln. EUR arba 4%. Joks kitas DI įstatymas neturi aukštesnių baudų.

Kurios DI sistemos yra didelės rizikos?

DI aktas skirsto sistemas pagal riziką. Didelės rizikos sistemos (III priedas) apima DI, naudojamą:

Švietime — mokyklos prieiga arba mokinių vertinimas
Darbe — CV tikrinimas, interviu vertinimas, darbuotojų stebėjimas
Pagrindinėse paslaugose — kreditų vertinimas, draudimo kainodara, skubios pagalbos išsiuntimas
Teisėsaugoje — nusikaltimų prognozavimas, biometrinis ID
Sveikatos apsaugoje — medicinos prietaiso programinė įranga, pacientų triažas
Infrastruktūroje — energijos, vandens ar transporto valdymas
Teisingumo sistemoje — teisinio tyrimo įrankiai, bausmių įrankiai

Dirbate bet kurioje iš šių sričių? 10 straipsnis taikomas jums.

10 straipsnis: keturios pagrindinės taisyklės

10 straipsnis nustato taisykles didelės rizikos DI sistemų naudojamoms duomenų rinkiniams. Štai keturios pagrindinės.

1. Rašytinis valdymas

Duomenų rinkiniai turi atitikti "tinkamas duomenų valdymo ir tvarkymo praktikas". Jums reikia rašytinių žingsnių rinkimui, kokybės patikrinimams ir nuolatinei peržiūrai.

2. Šališkumo testavimas

Įrašai turi būti patikrinti dėl "galimų šališkumų", kurie galėtų sukelti nesąžiningą išvestį. Reikalingas aktyvus testavimas. Vengti tyčinio šališkumo nepakanka.

3. Tikslumas ir aprėptis

Duomenų rinkiniai turi būti "tinkami, pakankamai reprezentatyvūs ir be klaidų". Žiniatinklio nuskaitymai, praleidžiantys tam tikras grupes, gali neišlaikyti šio testo.

4. Specialių duomenų tipai

10 straipsnio 5 dalis yra tiesioginiausia taisyklė. Kai didelės rizikos sistema naudoja specialių kategorijų duomenis — sveikata, rasė, religija, politika, biometrika — galite juos apdoroti tik tada, kai tai "griežtai būtina" šališkumo patikroms. Taip pat turite taikyti "tinkamas apsaugos priemones". Duomenų valymas yra viena stipriausių apsaugos priemonių, kurias galite naudoti.

Esmė: dauguma DI modelių duomenų rinkinių laiko asmens duomenis. 10 straipsnis sako naudoti minimaliai reikalingą, su stipriomis techninėmis apsaugos priemonėmis.

Žr. mūsų teisinės atitikties puslapį ir saugumo apžvalgą dėl išsamesnės informacijos.

Baudų pakopos

ES DI aktas turi tris baudų pakopas. Visos jos viršija BDAR tą pačio tipo pažeidimui:

Reglamentas	Maks. bauda	Apyvartos viršutinė riba
BDAR	20 mln. EUR	4% pasaulinės apyvartos
ES DI aktas (didelės rizikos)	15 mln. EUR	3% pasaulinės apyvartos
ES DI aktas (draudžiamas)	35 mln. EUR	7% pasaulinės apyvartos

Duomenų rinkinių pažeidimai patenka į didelės rizikos pakopą (15 mln. EUR / 3%). Jei reguliuotojas nustato, kad asmens duomenų naudojimas be apsaugos priemonių yra draudžiamas veiksmas, taikoma aukščiausia pakopa.

Realūs pavyzdžiai: 500 mln. EUR apyvarta prie 3% = 15 mln. EUR bauda. 5 mlrd. EUR apyvarta prie 3% = 150 mln. EUR bauda. Tai realūs skaičiai, ne teorija.

Kodėl duomenų valymas tai išsprendžia

Tinkamai išvalyti duomenys nepatenka į BDAR taikymo sritį. Tai pašalina didžiąją dalį 10 straipsnio naštos.

Sunkios taisyklės — specialių kategorijų tvarkymas, šališkumo patikrinimai, duomenų subjektų teisės — taikomos tik tada, kai duomenų rinkinys laiko asmens duomenis. Pirma pašalinkite tuos duomenis. Našta dažniausiai išnyksta.

CNIL (Prancūzijos duomenų institucija) tai aiškiai nurodė 2026 m. pradžioje. Jos DI gairės sako: asmens duomenų, nereikalingų modelio veikimui, duomenų valymas yra pagrindinė techninė priemonė 10 straipsniui.

Tai nėra kraštutinė nuomonė. Tai pagrindinė ES pagrindinio DI reguliuotojo pozicija.

Ką duomenų valymas reiškia praktiškai

DI modelių duomenų rinkinių valymas nėra tas pats, kas gyvų gamybos duomenų valymas. Modelių duomenų rinkiniai gali laikyti:

Dokumentus su ADA — sutartis, el. laiškus, ataskaitas, palaikymo bilietus
Struktūrizuotus įrašus — klientų lenteles, naudojamas prognoziniams modeliams kurti
Pažymėtą turinį — vaizdus ar tekstą su pastabomis, apimančiomis asmens duomenis
Sintetinius įrašus — kur generavimas vis tiek gali išsaugoti asmeninius šablonus

Turite aptikti ADA visuose šiuose formatuose. Vieno tipo praleidimas atskleidžia visą duomenų rinkinį. Sutartis su pašalintais vardais, bet pilnais adresais vis tiek moko modelį susieti buvimo vietą su demografiniais šablonais.

anonym.legal API tvarko paketinį apdorojimą dideliems DI duomenų rinkiniams. Ji aptinka 285+ objektų tipų 48 kalbomis. Europos DI įmonėms su daugiakalbiais duomenų rinkiniais kryžminis kalbų aprėptis yra kritiškai svarbus. Spraga vienoje kalboje sukuria ES DI akto riziką visoje sistemoje.

Daugiau apie objektų aptikimą žr. žetonų sistemos gide ir objektų tipų nuorodoje.

Praktiniai žingsniai: jūsų duomenų rinkinio valymas

1 žingsnis: Pirmiausia auditas

Prieš valant ką nors, vykdykite aptikimo praėjimą. Tai pasako, kokie ADA yra:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Atsakymas išvardija kiekvieną aptiktą objektą su jo tipu, pozicija ir balu. Paleiskite šį per visus failus, kad pamatytumėte visą apimtį prieš pradedant.

2 žingsnis: Paketo valymas

Dideliems duomenų rinkiniams naudokite paketo galutinį tašką keliems failams vienu metu apdoroti:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Atlikta: {result['id']} - {len(result['items'])} objektai pašalinti")

3 žingsnis: Saugokite įrašus

10 straipsnis reikalauja rašytinių įrašų apie tai, ką darėte. Kiekvienam duomenų rinkiniui saugokite:

Naudotą aptikimo modelį ir versiją
Kokius objektų tipus buvo rasta ir kaip kiekvienas buvo pakeistas
Pašalintų objektų skaičių kiekvienam duomenų rinkiniui
Valymo datą ir naudotą duomenų rinkinio versiją

Tai atitinka "duomenų valdymo ir tvarkymo praktikas" reikalavimą 10 straipsnio 2 dalies a punkte.

Dažni klausimai

Ar valymas sugadina modelio kokybę?

Daugumoje atvejų ne. Modelis mokosi šablonus iš teksto struktūros, o ne asmeninių detalių. Vardai, telefono numeriai ir adresai gali būti pakeisti vietos rezervuotojais kaip [NAME] ar [PHONE] ir modelis vis tiek mokosi tuos pačius šablonus. Daugelis tyrimų komandų nustatė, kad išvalyti duomenų rinkiniai sukuria vienodos kokybės modelius. Raktas yra naudoti nuoseklius vietos rezervuotojus, kad modelis matytų aiškų šabloną.

O jei mano duomenų rinkinys labai didelis?

Naudokite paketo API. Jis tvarko didelius kiekius lygiagrečiai. Kainų puslapis rodo planus didelės apimties naudojimo atvejams. Daugelis komandų per mėnesį apdoroja milijonus įrašų.

O ne angliški duomenų rinkiniai?

API palaiko 48 kalbas. Kiekviena kalba naudoja aptikimo modelį, apmokytą ta kalba. Tai reiškia, kad vokiečių, prancūzų, ispanų, japonų ir kitos kalbos yra apimtos. Žr. DUK dėl viso kalbų sąrašo. Mišrių kalbų duomenų rinkiniai taip pat palaikomi — galite nurodyti kalbą kiekvienam dokumentui paketo užklausoje.

Kolorado DI aktas: du terminai

Kolorado DI aktas įsigalioja 2026 m. birželio 30 d. — penkiomis savaitėmis anksčiau nei ES terminas. Jis nustato panašias taisykles "didelės rizikos DI sistemoms" pagal valstijos teisę. Pagrindinis dėmesys skirtas šališkumui ir diskriminacijai.

Komandos tiek ES, tiek Kolorade susiduria su dviem terminais vienu metu. Jūsų duomenų rinkinių valymas padeda atitikti abu įstatymus: 10 straipsnį (ES) ir Kolorado kovos su šališkumu taisykles. Techniniai žingsniai yra tie patys.

Veikite dabar

Penki mėnesiai yra pakankamai laiko — jei pradėsite šiandien. Nepakankamai, jei lauksit iki birželio.

Praktiškas laiko grafikas:

1–2 savaitės: Audituokite savo duomenų rinkinius — sužinokite, kokie asmens duomenys yra
3–6 savaitės: Sukurkite ir išbandykite valymo konvejerį
7–10 savaitės: Surašykite valdymo įrašus; gaukite teisinio peržiūrėjimo
11–16 savaitės: Patvirtinkite — įsitikinkite, kad išvalyti duomenų rinkiniai atitinka 10 straipsnio kokybės taisykles
Rugpjucio 2 d.: Vykdymo data — atitinkančios praktikos veikiančios

anonym.legal API integruojasi į jūsų dabartinį konvejerį be didelių pakeitimų. Patikrinkite kainodarą dėl apimties planų. DUK apima dažnus 10 straipsnio klausimus.

Naudokite BDAR atitikties kontrolinį sąrašą duomenims, kurie sutampa tarp BDAR ir 10 straipsnio.

ES DI aktas yra pasiruošęs vykdymui. Ar jūsų organizacija bus pasiruošusi iki rugpjucio 2 d.?

Pradėkite nuo BDAR atitikties kontrolinio sąrašo →

Apribojimai ir atviri klausimai

Duomenų valymas pagal DI akto taisykles vis dar vystosi. Štai pagrindinės spragos.

Ribos nėra apibrėžtos. ES DI aktas nenurodo, koks valymo lygis yra "pakankamas". Kol Europos DI biuras nepateiks gairių, jūs susiduriate su teisine rizika. Gali būti nežinoma, ar jūsų metodas patenkins reguliuotojus.

Pakartotinio identifikavimo rizika išlieka. Tyrimai rodo, kad dideli kalbos modeliai gali įsiminti ir pakartoti turinį iš savo duomenų rinkinių. Įrašai, praėję valymo standartus prieš modelio kūrimą, vis tiek gali būti išgaunami. Valymas prieš kūrimą visiškai to neišsprendžia.

Sintetiniai įrašai turi apribojimų. Sintetinis generavimas išsaugo statistinius šablonus, tačiau gali pridėti subtilių šališkumų arba praleisti retus kraštutinumus. Modeliai, sukurti tik iš sintetinio turinio, gali prastai veikti su realiais įvestimis.

10 straipsnis vis dar interpretuojamas. Frazė "tinkamos techninės priemonės" reikalauja interpretacijos. Ankstyvojo DPA darbo ES valstybėse narėse nesusitarė dėl aiškių standartų. Stebėkite EDPB gaires ir valstybių narių sprendimus per 2026 m.

Šaltiniai

ES DI aktas, Reglamentas (ES) 2024/1689, 9–17 straipsniai (didelės rizikos DI įsipareigojimai), OL L 2024/1689
ES DI aktas, 10 straipsnis — Duomenys ir duomenų valdymas
CNIL DI duomenų rinkinių gairės, 2026 m. sausis
Kolorado DI aktas, SB 205, galioja nuo 2026 m. birželio 30 d.
ES DI akto laiko grafikas: draudžiamos praktikos 2025 m. vasario 2 d.; didelės rizikos sistemos 2026 m. rugpjucio 2 d.

ES DI aktas 2026 m. rugpjutis: Mokymo duomenų anonimizavimas pagal 10 straipsnį

Atgalinis skaičiavimas prasidėjo

Kurios DI sistemos yra didelės rizikos?

10 straipsnis: keturios pagrindinės taisyklės

Baudų pakopos

Kodėl duomenų valymas tai išsprendžia

Ką duomenų valymas reiškia praktiškai

Praktiniai žingsniai: jūsų duomenų rinkinio valymas

Dažni klausimai

Kolorado DI aktas: du terminai

Veikite dabar

Apribojimai ir atviri klausimai

Šaltiniai

Susiję Straipsniai

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Pasiruošę apsaugoti savo duomenis?

ES DI aktas 2026 m. rugpjutis: Mokymo duomenų anonimizavimas pagal 10 straipsnį

Atgalinis skaičiavimas prasidėjo

Kurios DI sistemos yra didelės rizikos?

10 straipsnis: keturios pagrindinės taisyklės

Baudų pakopos

Kodėl duomenų valymas tai išsprendžia

Ką duomenų valymas reiškia praktiškai

Praktiniai žingsniai: jūsų duomenų rinkinio valymas

Dažni klausimai

Kolorado DI aktas: du terminai

Veikite dabar

Apribojimai ir atviri klausimai

Šaltiniai

Susiję Straipsniai

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Pasiruošę apsaugoti savo duomenis?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow