Atgalinis skaičiavimas prasidėjo
Atnaujinta 2026 m.
ES DI akto terminas yra realus. 10 straipsnio taisyklės taikomos nuo 2026 m. rugpjucio 2 d. Jei jūsų komanda kuria arba valdo didelės rizikos DI sistemą, veikite dabar. Laikas trumpas.
Baudos yra didesnės nei pagal BDAR. Maksimali bauda yra 35 mln. EUR arba 7% pasaulinio metinio apyvartos. BDAR apriboja iki 20 mln. EUR arba 4%. Joks kitas DI įstatymas neturi aukštesnių baudų.
Kurios DI sistemos yra didelės rizikos?
DI aktas skirsto sistemas pagal riziką. Didelės rizikos sistemos (III priedas) apima DI, naudojamą:
- Švietime — mokyklos prieiga arba mokinių vertinimas
- Darbe — CV tikrinimas, interviu vertinimas, darbuotojų stebėjimas
- Pagrindinėse paslaugose — kreditų vertinimas, draudimo kainodara, skubios pagalbos išsiuntimas
- Teisėsaugoje — nusikaltimų prognozavimas, biometrinis ID
- Sveikatos apsaugoje — medicinos prietaiso programinė įranga, pacientų triažas
- Infrastruktūroje — energijos, vandens ar transporto valdymas
- Teisingumo sistemoje — teisinio tyrimo įrankiai, bausmių įrankiai
Dirbate bet kurioje iš šių sričių? 10 straipsnis taikomas jums.
10 straipsnis: keturios pagrindinės taisyklės
10 straipsnis nustato taisykles didelės rizikos DI sistemų naudojamoms duomenų rinkiniams. Štai keturios pagrindinės.
1. Rašytinis valdymas
Duomenų rinkiniai turi atitikti "tinkamas duomenų valdymo ir tvarkymo praktikas". Jums reikia rašytinių žingsnių rinkimui, kokybės patikrinimams ir nuolatinei peržiūrai.
2. Šališkumo testavimas
Įrašai turi būti patikrinti dėl "galimų šališkumų", kurie galėtų sukelti nesąžiningą išvestį. Reikalingas aktyvus testavimas. Vengti tyčinio šališkumo nepakanka.
3. Tikslumas ir aprėptis
Duomenų rinkiniai turi būti "tinkami, pakankamai reprezentatyvūs ir be klaidų". Žiniatinklio nuskaitymai, praleidžiantys tam tikras grupes, gali neišlaikyti šio testo.
4. Specialių duomenų tipai
10 straipsnio 5 dalis yra tiesioginiausia taisyklė. Kai didelės rizikos sistema naudoja specialių kategorijų duomenis — sveikata, rasė, religija, politika, biometrika — galite juos apdoroti tik tada, kai tai "griežtai būtina" šališkumo patikroms. Taip pat turite taikyti "tinkamas apsaugos priemones". Duomenų valymas yra viena stipriausių apsaugos priemonių, kurias galite naudoti.
Esmė: dauguma DI modelių duomenų rinkinių laiko asmens duomenis. 10 straipsnis sako naudoti minimaliai reikalingą, su stipriomis techninėmis apsaugos priemonėmis.
Žr. mūsų teisinės atitikties puslapį ir saugumo apžvalgą dėl išsamesnės informacijos.
Baudų pakopos
ES DI aktas turi tris baudų pakopas. Visos jos viršija BDAR tą pačio tipo pažeidimui:
| Reglamentas | Maks. bauda | Apyvartos viršutinė riba |
|---|---|---|
| BDAR | 20 mln. EUR | 4% pasaulinės apyvartos |
| ES DI aktas (didelės rizikos) | 15 mln. EUR | 3% pasaulinės apyvartos |
| ES DI aktas (draudžiamas) | 35 mln. EUR | 7% pasaulinės apyvartos |
Duomenų rinkinių pažeidimai patenka į didelės rizikos pakopą (15 mln. EUR / 3%). Jei reguliuotojas nustato, kad asmens duomenų naudojimas be apsaugos priemonių yra draudžiamas veiksmas, taikoma aukščiausia pakopa.
Realūs pavyzdžiai: 500 mln. EUR apyvarta prie 3% = 15 mln. EUR bauda. 5 mlrd. EUR apyvarta prie 3% = 150 mln. EUR bauda. Tai realūs skaičiai, ne teorija.
Kodėl duomenų valymas tai išsprendžia
Tinkamai išvalyti duomenys nepatenka į BDAR taikymo sritį. Tai pašalina didžiąją dalį 10 straipsnio naštos.
Sunkios taisyklės — specialių kategorijų tvarkymas, šališkumo patikrinimai, duomenų subjektų teisės — taikomos tik tada, kai duomenų rinkinys laiko asmens duomenis. Pirma pašalinkite tuos duomenis. Našta dažniausiai išnyksta.
CNIL (Prancūzijos duomenų institucija) tai aiškiai nurodė 2026 m. pradžioje. Jos DI gairės sako: asmens duomenų, nereikalingų modelio veikimui, duomenų valymas yra pagrindinė techninė priemonė 10 straipsniui.
Tai nėra kraštutinė nuomonė. Tai pagrindinė ES pagrindinio DI reguliuotojo pozicija.
Ką duomenų valymas reiškia praktiškai
DI modelių duomenų rinkinių valymas nėra tas pats, kas gyvų gamybos duomenų valymas. Modelių duomenų rinkiniai gali laikyti:
- Dokumentus su ADA — sutartis, el. laiškus, ataskaitas, palaikymo bilietus
- Struktūrizuotus įrašus — klientų lenteles, naudojamas prognoziniams modeliams kurti
- Pažymėtą turinį — vaizdus ar tekstą su pastabomis, apimančiomis asmens duomenis
- Sintetinius įrašus — kur generavimas vis tiek gali išsaugoti asmeninius šablonus
Turite aptikti ADA visuose šiuose formatuose. Vieno tipo praleidimas atskleidžia visą duomenų rinkinį. Sutartis su pašalintais vardais, bet pilnais adresais vis tiek moko modelį susieti buvimo vietą su demografiniais šablonais.
anonym.legal API tvarko paketinį apdorojimą dideliems DI duomenų rinkiniams. Ji aptinka 285+ objektų tipų 48 kalbomis. Europos DI įmonėms su daugiakalbiais duomenų rinkiniais kryžminis kalbų aprėptis yra kritiškai svarbus. Spraga vienoje kalboje sukuria ES DI akto riziką visoje sistemoje.
Daugiau apie objektų aptikimą žr. žetonų sistemos gide ir objektų tipų nuorodoje.
Praktiniai žingsniai: jūsų duomenų rinkinio valymas
1 žingsnis: Pirmiausia auditas
Prieš valant ką nors, vykdykite aptikimo praėjimą. Tai pasako, kokie ADA yra:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Atsakymas išvardija kiekvieną aptiktą objektą su jo tipu, pozicija ir balu. Paleiskite šį per visus failus, kad pamatytumėte visą apimtį prieš pradedant.
2 žingsnis: Paketo valymas
Dideliems duomenų rinkiniams naudokite paketo galutinį tašką keliems failams vienu metu apdoroti:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Atlikta: {result['id']} - {len(result['items'])} objektai pašalinti")
3 žingsnis: Saugokite įrašus
10 straipsnis reikalauja rašytinių įrašų apie tai, ką darėte. Kiekvienam duomenų rinkiniui saugokite:
- Naudotą aptikimo modelį ir versiją
- Kokius objektų tipus buvo rasta ir kaip kiekvienas buvo pakeistas
- Pašalintų objektų skaičių kiekvienam duomenų rinkiniui
- Valymo datą ir naudotą duomenų rinkinio versiją
Tai atitinka "duomenų valdymo ir tvarkymo praktikas" reikalavimą 10 straipsnio 2 dalies a punkte.
Dažni klausimai
Ar valymas sugadina modelio kokybę?
Daugumoje atvejų ne. Modelis mokosi šablonus iš teksto struktūros, o ne asmeninių detalių. Vardai, telefono numeriai ir adresai gali būti pakeisti vietos rezervuotojais kaip [NAME] ar [PHONE] ir modelis vis tiek mokosi tuos pačius šablonus. Daugelis tyrimų komandų nustatė, kad išvalyti duomenų rinkiniai sukuria vienodos kokybės modelius. Raktas yra naudoti nuoseklius vietos rezervuotojus, kad modelis matytų aiškų šabloną.
O jei mano duomenų rinkinys labai didelis?
Naudokite paketo API. Jis tvarko didelius kiekius lygiagrečiai. Kainų puslapis rodo planus didelės apimties naudojimo atvejams. Daugelis komandų per mėnesį apdoroja milijonus įrašų.
O ne angliški duomenų rinkiniai?
API palaiko 48 kalbas. Kiekviena kalba naudoja aptikimo modelį, apmokytą ta kalba. Tai reiškia, kad vokiečių, prancūzų, ispanų, japonų ir kitos kalbos yra apimtos. Žr. DUK dėl viso kalbų sąrašo. Mišrių kalbų duomenų rinkiniai taip pat palaikomi — galite nurodyti kalbą kiekvienam dokumentui paketo užklausoje.
Kolorado DI aktas: du terminai
Kolorado DI aktas įsigalioja 2026 m. birželio 30 d. — penkiomis savaitėmis anksčiau nei ES terminas. Jis nustato panašias taisykles "didelės rizikos DI sistemoms" pagal valstijos teisę. Pagrindinis dėmesys skirtas šališkumui ir diskriminacijai.
Komandos tiek ES, tiek Kolorade susiduria su dviem terminais vienu metu. Jūsų duomenų rinkinių valymas padeda atitikti abu įstatymus: 10 straipsnį (ES) ir Kolorado kovos su šališkumu taisykles. Techniniai žingsniai yra tie patys.
Veikite dabar
Penki mėnesiai yra pakankamai laiko — jei pradėsite šiandien. Nepakankamai, jei lauksit iki birželio.
Praktiškas laiko grafikas:
- 1–2 savaitės: Audituokite savo duomenų rinkinius — sužinokite, kokie asmens duomenys yra
- 3–6 savaitės: Sukurkite ir išbandykite valymo konvejerį
- 7–10 savaitės: Surašykite valdymo įrašus; gaukite teisinio peržiūrėjimo
- 11–16 savaitės: Patvirtinkite — įsitikinkite, kad išvalyti duomenų rinkiniai atitinka 10 straipsnio kokybės taisykles
- Rugpjucio 2 d.: Vykdymo data — atitinkančios praktikos veikiančios
anonym.legal API integruojasi į jūsų dabartinį konvejerį be didelių pakeitimų. Patikrinkite kainodarą dėl apimties planų. DUK apima dažnus 10 straipsnio klausimus.
Naudokite BDAR atitikties kontrolinį sąrašą duomenims, kurie sutampa tarp BDAR ir 10 straipsnio.
ES DI aktas yra pasiruošęs vykdymui. Ar jūsų organizacija bus pasiruošusi iki rugpjucio 2 d.?
Pradėkite nuo BDAR atitikties kontrolinio sąrašo →
Apribojimai ir atviri klausimai
Duomenų valymas pagal DI akto taisykles vis dar vystosi. Štai pagrindinės spragos.
Ribos nėra apibrėžtos. ES DI aktas nenurodo, koks valymo lygis yra "pakankamas". Kol Europos DI biuras nepateiks gairių, jūs susiduriate su teisine rizika. Gali būti nežinoma, ar jūsų metodas patenkins reguliuotojus.
Pakartotinio identifikavimo rizika išlieka. Tyrimai rodo, kad dideli kalbos modeliai gali įsiminti ir pakartoti turinį iš savo duomenų rinkinių. Įrašai, praėję valymo standartus prieš modelio kūrimą, vis tiek gali būti išgaunami. Valymas prieš kūrimą visiškai to neišsprendžia.
Sintetiniai įrašai turi apribojimų. Sintetinis generavimas išsaugo statistinius šablonus, tačiau gali pridėti subtilių šališkumų arba praleisti retus kraštutinumus. Modeliai, sukurti tik iš sintetinio turinio, gali prastai veikti su realiais įvestimis.
10 straipsnis vis dar interpretuojamas. Frazė "tinkamos techninės priemonės" reikalauja interpretacijos. Ankstyvojo DPA darbo ES valstybėse narėse nesusitarė dėl aiškių standartų. Stebėkite EDPB gaires ir valstybių narių sprendimus per 2026 m.
Šaltiniai
- ES DI aktas, Reglamentas (ES) 2024/1689, 9–17 straipsniai (didelės rizikos DI įsipareigojimai), OL L 2024/1689
- ES DI aktas, 10 straipsnis — Duomenys ir duomenų valdymas
- CNIL DI duomenų rinkinių gairės, 2026 m. sausis
- Kolorado DI aktas, SB 205, galioja nuo 2026 m. birželio 30 d.
- ES DI akto laiko grafikas: draudžiamos praktikos 2025 m. vasario 2 d.; didelės rizikos sistemos 2026 m. rugpjucio 2 d.