Odliczanie się rozpoczęło
Zaktualizowano na 2026 rok
Termin wynikający z Ustawy o AI UE jest realny. Przepisy Artykułu 10 obowiązują od 2 sierpnia 2026 roku. Jeśli Twój zespół tworzy lub obsługuje system AI wysokiego ryzyka, działaj teraz. Czasu jest mało.
Kary są wyższe niż w RODO. Maksymalna kara to 35 milionów EUR lub 7% globalnych rocznych obrotów. RODO wyznacza górną granicę na poziomie 20 milionów EUR lub 4%. Żadne inne prawo dotyczące AI nie przewiduje wyższych kar.
Które systemy AI są wysokiego ryzyka?
Ustawa o AI klasyfikuje systemy według ryzyka. Systemy wysokiego ryzyka (Załącznik III) obejmują AI stosowane w obszarach:
- Edukacja — przyjęcia do szkół lub ocenianie uczniów
- Zatrudnienie — selekcja CV, ocenianie rozmów kwalifikacyjnych, monitoring pracowników
- Usługi kluczowe — scoring kredytowy, wycena ubezpieczeń, dyspozytura ratunkowa
- Organy ścigania — prognozowanie przestępczości, identyfikacja biometryczna
- Ochrona zdrowia — oprogramowanie do wyrobów medycznych, triage pacjentów
- Infrastruktura — zarządzanie energetyką, wodociągami lub transportem
- Wymiar sprawiedliwości — narzędzia do badań prawnych, narzędzia do wymiaru kar
Działasz w którymś z tych obszarów? Artykuł 10 dotyczy Ciebie.
Artykuł 10: cztery kluczowe zasady
Artykuł 10 ustanawia zasady dotyczące zbiorów danych używanych przez systemy AI wysokiego ryzyka. Oto cztery główne z nich.
1. Pisemne zasady zarządzania danymi
Zbiory danych muszą podlegać „odpowiednim praktykom zarządzania danymi i ich przetwarzania”. Wymagane są pisemne procedury dotyczące gromadzenia, kontroli jakości i bieżącego przeglądu.
2. Testowanie pod kątem stronniczości
Dane muszą być sprawdzane pod kątem „możliwych uprzedzeń”, które mogłyby prowadzić do niesprawiedliwych wyników. Wymagane jest aktywne testowanie. Samo unikanie celowej stronniczości nie wystarcza.
3. Dokładność i reprezentatywność
Zbiory danych muszą być „istotne, wystarczająco reprezentatywne i wolne od błędów”. Dane z crawlingu internetowego pomijające określone grupy mogą nie spełniać tego wymogu.
4. Szczególne kategorie danych
Artykuł 10(5) to najbardziej bezpośredni przepis. Gdy system AI wysokiego ryzyka korzysta ze szczególnych kategorii danych — danych o zdrowiu, rasie, religii, poglądach politycznych, danych biometrycznych — możesz je przetwarzać wyłącznie wtedy, gdy jest to „ściśle konieczne” do testowania stronniczości. Musisz też stosować „odpowiednie zabezpieczenia”. Usuwanie danych osobowych jest jednym z najsilniejszych zabezpieczeń, jakie możesz zastosować.
Wniosek: większość zbiorów danych modeli AI zawiera dane osobowe. Artykuł 10 nakazuje używać minimum, stosując silne zabezpieczenia techniczne.
Szczegóły znajdziesz na naszej stronie zgodności prawnej i w omówieniu bezpieczeństwa.
Progi kar
Ustawa o AI UE przewiduje trzy poziomy kar. Wszystkie przekraczają RODO dla tego samego rodzaju naruszenia:
| Regulacja | Maksymalna kara | Pułap obrotów |
|---|---|---|
| RODO | 20 milionów EUR | 4% globalnych obrotów |
| Ustawa o AI UE (wysokie ryzyko) | 15 milionów EUR | 3% globalnych obrotów |
| Ustawa o AI UE (zakazane) | 35 milionów EUR | 7% globalnych obrotów |
Naruszenia dotyczące zbiorów danych podlegają tierowi wysokiego ryzyka (15 mln EUR / 3%). Jeśli regulator uzna, że korzystanie z danych osobowych bez zabezpieczeń stanowi działanie zakazane, zastosuje najwyższy tier.
Rzeczywiste przykłady: obroty 500 mln EUR przy 3% = 15 mln EUR kary. Obroty 5 mld EUR przy 3% = 150 mln EUR kary. To realne liczby, nie teoria.
Dlaczego usuwanie danych osobowych rozwiązuje ten problem
Właściwie oczyszczone dane wypadają poza zakres RODO. To eliminuje większość obciążeń wynikających z Artykułu 10.
Rygorystyczne zasady — obsługa szczególnych kategorii danych, testowanie stronniczości, prawa osób, których dane dotyczą — mają zastosowanie wyłącznie wtedy, gdy zbiór danych zawiera dane osobowe. Usuń te dane najpierw. Ciężar w dużej mierze znika.
Francuski organ nadzorczy CNIL wyjaśnił to na początku 2026 roku. Jego wytyczne dotyczące AI stwierdzają wprost: usuwanie danych osobowych niepotrzebnych do działania modelu to podstawowy środek techniczny wymagany przez Artykuł 10.
To nie jest pogląd marginalny. To stanowisko głównego europejskiego regulatora AI.
Co usuwanie danych osobowych oznacza w praktyce
Oczyszczanie zbiorów danych modeli AI różni się od oczyszczania danych produkcyjnych na żywo. Zbiory danych modeli mogą zawierać:
- Dokumenty z danymi osobowymi — umowy, e-maile, raporty, zgłoszenia do wsparcia
- Dane strukturalne — tabele klientów używane do budowania modeli predykcyjnych
- Treści z etykietami — obrazy lub tekst z notatkami zawierającymi dane osobowe
- Dane syntetyczne — gdzie generowanie może nadal zachowywać wzorce osobowe
Musisz wykryć dane osobowe we wszystkich tych formatach. Pominięcie jednego typu naraża cały zbiór danych. Umowa z usuniętymi nazwiskami, ale z pełnymi adresami nadal nienaruszonymi, nauczy model łączyć lokalizację ze wzorcami demograficznymi.
API anonym.legal obsługuje przetwarzanie wsadowe dużych zbiorów danych AI. Wykrywa ponad 285 typów encji w 48 językach. Dla europejskich firm AI z wielojęzycznymi zbiorami danych wielojęzyczne pokrycie jest kluczowe. Luka w jednym języku stwarza ryzyko wynikające z Ustawy o AI UE w całym systemie.
Aby dowiedzieć się więcej o wykrywaniu encji, zapoznaj się z przewodnikiem po systemie tokenów i listą typów encji.
Praktyczne kroki: oczyszczanie zbioru danych
Krok 1: Najpierw audyt
Przeprowadź wstępne skanowanie wykrywające zanim zaczniesz czyścić. Dowiesz się, jakie dane osobowe są obecne:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer TWÓJ_KLUCZ_API" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Odpowiedź zawiera listę wszystkich wykrytych encji z ich typem, pozycją i wynikiem. Uruchom to na wszystkich plikach, aby poznać pełen zakres przed przystąpieniem do pracy.
Krok 2: Masowe oczyszczanie
Dla dużych zbiorów danych użyj endpointu wsadowego do przetwarzania wielu plików naraz:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Gotowe: {result['id']} — usunięto {len(result['items'])} encji")
Krok 3: Prowadź dokumentację
Artykuł 10 wymaga pisemnej dokumentacji podjętych działań. Dla każdego zbioru danych zachowaj:
- Model wykrywania i użytą wersję
- Wykryte typy encji i sposób zastąpienia każdego z nich
- Liczbę usuniętych encji na zbiór danych
- Datę oczyszczania i wersję zbioru danych
Spełnia to wymóg „praktyk zarządzania danymi i ich przetwarzania” z Artykułu 10(2)(a).
Najczęstsze pytania
Czy usuwanie danych obniża jakość modelu?
W większości przypadków nie. Model uczy się wzorców ze struktury tekstu, a nie z danych osobowych. Imiona, numery telefonów i adresy można zastąpić symbolami zastępczymi, takimi jak [NAME] czy [PHONE], a model nadal uczy się tych samych wzorców. Wiele zespołów badawczych potwierdziło, że oczyszczone zbiory danych dają modele o równoważnej jakości. Kluczem jest stosowanie spójnych symboli zastępczych, aby model widział wyraźny wzorzec.
Co jeśli mój zbiór danych jest bardzo duży?
Użyj wsadowego API. Obsługuje duże wolumeny równolegle. Strona cennika pokazuje plany dla zastosowań wymagających dużych wolumenów. Wiele zespołów przetwarza miliony rekordów miesięcznie.
Co z nieangielskojęzycznymi zbiorami danych?
API obsługuje 48 języków. Każdy język korzysta z modelu wykrywania wytrenowanego na tym języku — co oznacza, że język niemiecki, francuski, hiszpański, japoński i inne są w pełni obsługiwane. Zapoznaj się z FAQ, aby zobaczyć pełną listę języków. Wielojęzyczne zbiory danych są również obsługiwane — możesz określić język dla każdego dokumentu w żądaniu wsadowym.
Colorado AI Act: dwa terminy
Colorado AI Act wchodzi w życie 30 czerwca 2026 roku — pięć tygodni przed terminem unijnym. Ustanawia podobne zasady dla „systemów AI wysokiego ryzyka” na poziomie stanowym. Główny nacisk kładziony jest na stronniczość i dyskryminację.
Zespoły działające zarówno w UE, jak i w Kolorado mierzą się z dwoma terminami jednocześnie. Oczyszczanie zbiorów danych pomaga spełnić oba wymogi: Artykuł 10 (UE) i przepisy antybiasowe Kolorado. Kroki techniczne są takie same.
Działaj teraz
Pięć miesięcy wystarczy — jeśli zaczniesz dziś. Nie wystarczy, jeśli poczekasz do czerwca.
Praktyczny harmonogram:
- Tygodnie 1–2: Przeprowadź audyt zbiorów danych — dowiedz się, jakie dane osobowe są obecne
- Tygodnie 3–6: Zbuduj i przetestuj potok oczyszczania
- Tygodnie 7–10: Sporządź dokumentację zarządczą; uzyskaj weryfikację prawną
- Tygodnie 11–16: Walidacja — potwierdź, że oczyszczone zbiory danych spełniają wymogi jakościowe Artykułu 10
- 2 sierpnia: Data egzekwowania — zgodne praktyki wdrożone
API anonym.legal integruje się z Twoim aktualnym potokiem bez większych zmian. Sprawdź cennik pod kątem planów wolumenowych. FAQ odpowiada na najczęstsze pytania dotyczące Artykułu 10.
Skorzystaj z listy kontrolnej RODO dla danych pokrywających się między RODO a Artykułem 10.
Ustawa o AI UE jest gotowa do egzekwowania. Czy Twoja organizacja będzie gotowa do 2 sierpnia?
Zacznij od listy kontrolnej RODO →
Ograniczenia i otwarte kwestie
Usuwanie danych osobowych na potrzeby Ustawy o AI UE to wciąż rozwijający się obszar. Oto kluczowe luki.
Progi nie są zdefiniowane. Ustawa o AI UE nie określa, jaki poziom usuwania danych jest „wystarczający”. Do czasu wydania wytycznych przez Europejskie Biuro AI działasz w obszarze ryzyka prawnego. Możesz nie wiedzieć, czy Twoja metoda zadowoli regulatorów.
Ryzyko ponownej identyfikacji pozostaje. Badania pokazują, że duże modele językowe mogą zapamiętywać i odtwarzać treści ze swoich zbiorów danych. Rekordy, które przeszły standardy oczyszczania przed opracowaniem modelu, mogą nadal być wyodrębniane. Oczyszczanie przed opracowaniem modelu nie rozwiązuje tego problemu w pełni.
Dane syntetyczne mają ograniczenia. Generowanie syntetyczne zachowuje wzorce statystyczne, ale może wprowadzać subtelne uprzedzenia lub pomijać rzadkie przypadki brzegowe. Modele zbudowane wyłącznie na treściach syntetycznych mogą słabo działać na rzeczywistych danych wejściowych.
Artykuł 10 jest wciąż interpretowany. Wyrażenie „odpowiednie środki techniczne” wymaga interpretacji. Wczesne działania organów ochrony danych w państwach członkowskich UE nie wypracowały jeszcze jasnych standardów. Śledź wytyczne EROD i decyzje na poziomie krajowym przez cały 2026 rok.
Źródła
- Ustawa o AI UE, Rozporządzenie (UE) 2024/1689, Artykuły 9–17 (obowiązki systemów AI wysokiego ryzyka), Dz.U. L 2024/1689
- Ustawa o AI UE, Artykuł 10 — Dane i zarządzanie danymi
- Wytyczne CNIL dotyczące zbiorów danych AI, styczeń 2026
- Colorado AI Act, SB 205, wchodzi w życie 30 czerwca 2026 r.
- Harmonogram Ustawy o AI UE: praktyki zakazane od 2 lutego 2025 r.; systemy wysokiego ryzyka od 2 sierpnia 2026 r.