Powrót do blogaGDPR i zgodność

Ustawa o AI UE — sierpień 2026: anonimizacja danych treningowych zgodnie z Artykułem 10

Pełne egzekwowanie Ustawy o AI UE rozpoczyna się 2 sierpnia 2026 r. Kary do 35 mln EUR lub 7% globalnych obrotów. Artykuł 10 wymaga anonimizacji danych treningowych.

March 16, 20269 min czytania
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

Odliczanie się rozpoczęło

Zaktualizowano na 2026 rok

Termin wynikający z Ustawy o AI UE jest realny. Przepisy Artykułu 10 obowiązują od 2 sierpnia 2026 roku. Jeśli Twój zespół tworzy lub obsługuje system AI wysokiego ryzyka, działaj teraz. Czasu jest mało.

Kary są wyższe niż w RODO. Maksymalna kara to 35 milionów EUR lub 7% globalnych rocznych obrotów. RODO wyznacza górną granicę na poziomie 20 milionów EUR lub 4%. Żadne inne prawo dotyczące AI nie przewiduje wyższych kar.

Które systemy AI są wysokiego ryzyka?

Ustawa o AI klasyfikuje systemy według ryzyka. Systemy wysokiego ryzyka (Załącznik III) obejmują AI stosowane w obszarach:

  • Edukacja — przyjęcia do szkół lub ocenianie uczniów
  • Zatrudnienie — selekcja CV, ocenianie rozmów kwalifikacyjnych, monitoring pracowników
  • Usługi kluczowe — scoring kredytowy, wycena ubezpieczeń, dyspozytura ratunkowa
  • Organy ścigania — prognozowanie przestępczości, identyfikacja biometryczna
  • Ochrona zdrowia — oprogramowanie do wyrobów medycznych, triage pacjentów
  • Infrastruktura — zarządzanie energetyką, wodociągami lub transportem
  • Wymiar sprawiedliwości — narzędzia do badań prawnych, narzędzia do wymiaru kar

Działasz w którymś z tych obszarów? Artykuł 10 dotyczy Ciebie.

Artykuł 10: cztery kluczowe zasady

Artykuł 10 ustanawia zasady dotyczące zbiorów danych używanych przez systemy AI wysokiego ryzyka. Oto cztery główne z nich.

1. Pisemne zasady zarządzania danymi

Zbiory danych muszą podlegać „odpowiednim praktykom zarządzania danymi i ich przetwarzania”. Wymagane są pisemne procedury dotyczące gromadzenia, kontroli jakości i bieżącego przeglądu.

2. Testowanie pod kątem stronniczości

Dane muszą być sprawdzane pod kątem „możliwych uprzedzeń”, które mogłyby prowadzić do niesprawiedliwych wyników. Wymagane jest aktywne testowanie. Samo unikanie celowej stronniczości nie wystarcza.

3. Dokładność i reprezentatywność

Zbiory danych muszą być „istotne, wystarczająco reprezentatywne i wolne od błędów”. Dane z crawlingu internetowego pomijające określone grupy mogą nie spełniać tego wymogu.

4. Szczególne kategorie danych

Artykuł 10(5) to najbardziej bezpośredni przepis. Gdy system AI wysokiego ryzyka korzysta ze szczególnych kategorii danych — danych o zdrowiu, rasie, religii, poglądach politycznych, danych biometrycznych — możesz je przetwarzać wyłącznie wtedy, gdy jest to „ściśle konieczne” do testowania stronniczości. Musisz też stosować „odpowiednie zabezpieczenia”. Usuwanie danych osobowych jest jednym z najsilniejszych zabezpieczeń, jakie możesz zastosować.

Wniosek: większość zbiorów danych modeli AI zawiera dane osobowe. Artykuł 10 nakazuje używać minimum, stosując silne zabezpieczenia techniczne.

Szczegóły znajdziesz na naszej stronie zgodności prawnej i w omówieniu bezpieczeństwa.

Progi kar

Ustawa o AI UE przewiduje trzy poziomy kar. Wszystkie przekraczają RODO dla tego samego rodzaju naruszenia:

RegulacjaMaksymalna karaPułap obrotów
RODO20 milionów EUR4% globalnych obrotów
Ustawa o AI UE (wysokie ryzyko)15 milionów EUR3% globalnych obrotów
Ustawa o AI UE (zakazane)35 milionów EUR7% globalnych obrotów

Naruszenia dotyczące zbiorów danych podlegają tierowi wysokiego ryzyka (15 mln EUR / 3%). Jeśli regulator uzna, że korzystanie z danych osobowych bez zabezpieczeń stanowi działanie zakazane, zastosuje najwyższy tier.

Rzeczywiste przykłady: obroty 500 mln EUR przy 3% = 15 mln EUR kary. Obroty 5 mld EUR przy 3% = 150 mln EUR kary. To realne liczby, nie teoria.

Dlaczego usuwanie danych osobowych rozwiązuje ten problem

Właściwie oczyszczone dane wypadają poza zakres RODO. To eliminuje większość obciążeń wynikających z Artykułu 10.

Rygorystyczne zasady — obsługa szczególnych kategorii danych, testowanie stronniczości, prawa osób, których dane dotyczą — mają zastosowanie wyłącznie wtedy, gdy zbiór danych zawiera dane osobowe. Usuń te dane najpierw. Ciężar w dużej mierze znika.

Francuski organ nadzorczy CNIL wyjaśnił to na początku 2026 roku. Jego wytyczne dotyczące AI stwierdzają wprost: usuwanie danych osobowych niepotrzebnych do działania modelu to podstawowy środek techniczny wymagany przez Artykuł 10.

To nie jest pogląd marginalny. To stanowisko głównego europejskiego regulatora AI.

Co usuwanie danych osobowych oznacza w praktyce

Oczyszczanie zbiorów danych modeli AI różni się od oczyszczania danych produkcyjnych na żywo. Zbiory danych modeli mogą zawierać:

  • Dokumenty z danymi osobowymi — umowy, e-maile, raporty, zgłoszenia do wsparcia
  • Dane strukturalne — tabele klientów używane do budowania modeli predykcyjnych
  • Treści z etykietami — obrazy lub tekst z notatkami zawierającymi dane osobowe
  • Dane syntetyczne — gdzie generowanie może nadal zachowywać wzorce osobowe

Musisz wykryć dane osobowe we wszystkich tych formatach. Pominięcie jednego typu naraża cały zbiór danych. Umowa z usuniętymi nazwiskami, ale z pełnymi adresami nadal nienaruszonymi, nauczy model łączyć lokalizację ze wzorcami demograficznymi.

API anonym.legal obsługuje przetwarzanie wsadowe dużych zbiorów danych AI. Wykrywa ponad 285 typów encji w 48 językach. Dla europejskich firm AI z wielojęzycznymi zbiorami danych wielojęzyczne pokrycie jest kluczowe. Luka w jednym języku stwarza ryzyko wynikające z Ustawy o AI UE w całym systemie.

Aby dowiedzieć się więcej o wykrywaniu encji, zapoznaj się z przewodnikiem po systemie tokenów i listą typów encji.

Praktyczne kroki: oczyszczanie zbioru danych

Krok 1: Najpierw audyt

Przeprowadź wstępne skanowanie wykrywające zanim zaczniesz czyścić. Dowiesz się, jakie dane osobowe są obecne:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer TWÓJ_KLUCZ_API" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Odpowiedź zawiera listę wszystkich wykrytych encji z ich typem, pozycją i wynikiem. Uruchom to na wszystkich plikach, aby poznać pełen zakres przed przystąpieniem do pracy.

Krok 2: Masowe oczyszczanie

Dla dużych zbiorów danych użyj endpointu wsadowego do przetwarzania wielu plików naraz:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Gotowe: {result['id']} — usunięto {len(result['items'])} encji")

Krok 3: Prowadź dokumentację

Artykuł 10 wymaga pisemnej dokumentacji podjętych działań. Dla każdego zbioru danych zachowaj:

  • Model wykrywania i użytą wersję
  • Wykryte typy encji i sposób zastąpienia każdego z nich
  • Liczbę usuniętych encji na zbiór danych
  • Datę oczyszczania i wersję zbioru danych

Spełnia to wymóg „praktyk zarządzania danymi i ich przetwarzania” z Artykułu 10(2)(a).

Najczęstsze pytania

Czy usuwanie danych obniża jakość modelu?

W większości przypadków nie. Model uczy się wzorców ze struktury tekstu, a nie z danych osobowych. Imiona, numery telefonów i adresy można zastąpić symbolami zastępczymi, takimi jak [NAME] czy [PHONE], a model nadal uczy się tych samych wzorców. Wiele zespołów badawczych potwierdziło, że oczyszczone zbiory danych dają modele o równoważnej jakości. Kluczem jest stosowanie spójnych symboli zastępczych, aby model widział wyraźny wzorzec.

Co jeśli mój zbiór danych jest bardzo duży?

Użyj wsadowego API. Obsługuje duże wolumeny równolegle. Strona cennika pokazuje plany dla zastosowań wymagających dużych wolumenów. Wiele zespołów przetwarza miliony rekordów miesięcznie.

Co z nieangielskojęzycznymi zbiorami danych?

API obsługuje 48 języków. Każdy język korzysta z modelu wykrywania wytrenowanego na tym języku — co oznacza, że język niemiecki, francuski, hiszpański, japoński i inne są w pełni obsługiwane. Zapoznaj się z FAQ, aby zobaczyć pełną listę języków. Wielojęzyczne zbiory danych są również obsługiwane — możesz określić język dla każdego dokumentu w żądaniu wsadowym.

Colorado AI Act: dwa terminy

Colorado AI Act wchodzi w życie 30 czerwca 2026 roku — pięć tygodni przed terminem unijnym. Ustanawia podobne zasady dla „systemów AI wysokiego ryzyka” na poziomie stanowym. Główny nacisk kładziony jest na stronniczość i dyskryminację.

Zespoły działające zarówno w UE, jak i w Kolorado mierzą się z dwoma terminami jednocześnie. Oczyszczanie zbiorów danych pomaga spełnić oba wymogi: Artykuł 10 (UE) i przepisy antybiasowe Kolorado. Kroki techniczne są takie same.

Działaj teraz

Pięć miesięcy wystarczy — jeśli zaczniesz dziś. Nie wystarczy, jeśli poczekasz do czerwca.

Praktyczny harmonogram:

  1. Tygodnie 1–2: Przeprowadź audyt zbiorów danych — dowiedz się, jakie dane osobowe są obecne
  2. Tygodnie 3–6: Zbuduj i przetestuj potok oczyszczania
  3. Tygodnie 7–10: Sporządź dokumentację zarządczą; uzyskaj weryfikację prawną
  4. Tygodnie 11–16: Walidacja — potwierdź, że oczyszczone zbiory danych spełniają wymogi jakościowe Artykułu 10
  5. 2 sierpnia: Data egzekwowania — zgodne praktyki wdrożone

API anonym.legal integruje się z Twoim aktualnym potokiem bez większych zmian. Sprawdź cennik pod kątem planów wolumenowych. FAQ odpowiada na najczęstsze pytania dotyczące Artykułu 10.

Skorzystaj z listy kontrolnej RODO dla danych pokrywających się między RODO a Artykułem 10.

Ustawa o AI UE jest gotowa do egzekwowania. Czy Twoja organizacja będzie gotowa do 2 sierpnia?

Zacznij od listy kontrolnej RODO →

Ograniczenia i otwarte kwestie

Usuwanie danych osobowych na potrzeby Ustawy o AI UE to wciąż rozwijający się obszar. Oto kluczowe luki.

Progi nie są zdefiniowane. Ustawa o AI UE nie określa, jaki poziom usuwania danych jest „wystarczający”. Do czasu wydania wytycznych przez Europejskie Biuro AI działasz w obszarze ryzyka prawnego. Możesz nie wiedzieć, czy Twoja metoda zadowoli regulatorów.

Ryzyko ponownej identyfikacji pozostaje. Badania pokazują, że duże modele językowe mogą zapamiętywać i odtwarzać treści ze swoich zbiorów danych. Rekordy, które przeszły standardy oczyszczania przed opracowaniem modelu, mogą nadal być wyodrębniane. Oczyszczanie przed opracowaniem modelu nie rozwiązuje tego problemu w pełni.

Dane syntetyczne mają ograniczenia. Generowanie syntetyczne zachowuje wzorce statystyczne, ale może wprowadzać subtelne uprzedzenia lub pomijać rzadkie przypadki brzegowe. Modele zbudowane wyłącznie na treściach syntetycznych mogą słabo działać na rzeczywistych danych wejściowych.

Artykuł 10 jest wciąż interpretowany. Wyrażenie „odpowiednie środki techniczne” wymaga interpretacji. Wczesne działania organów ochrony danych w państwach członkowskich UE nie wypracowały jeszcze jasnych standardów. Śledź wytyczne EROD i decyzje na poziomie krajowym przez cały 2026 rok.

Źródła

  • Ustawa o AI UE, Rozporządzenie (UE) 2024/1689, Artykuły 9–17 (obowiązki systemów AI wysokiego ryzyka), Dz.U. L 2024/1689
  • Ustawa o AI UE, Artykuł 10 — Dane i zarządzanie danymi
  • Wytyczne CNIL dotyczące zbiorów danych AI, styczeń 2026
  • Colorado AI Act, SB 205, wchodzi w życie 30 czerwca 2026 r.
  • Harmonogram Ustawy o AI UE: praktyki zakazane od 2 lutego 2025 r.; systemy wysokiego ryzyka od 2 sierpnia 2026 r.

Gotowy, aby chronić swoje dane?

Rozpocznij anonimizację PII z 285+ typami podmiotów w 48 językach.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.