Одбројувањето започна
Ажурирано за 2026 година
Рокот на EU AI Act е реален. Правилата на Член 10 се применуваат од 2 август 2026 година. Ако вашиот тим гради или извршува AI систем со висок ризик, дејствувајте сега. Времето е кратко.
Казните се повисоки отколку GDPR. Максималната казна е €35 милиони или 7% од глобалниот годишен промет. GDPR е ограничен на €20 милиони или 4%. Ниту еден друг AI закон нема повисоки казни.
Кои AI системи се со висок ризик?
AI Act ги сортира системите по ризик. Системите со висок ризик (Анекс III) покриваат AI користен во:
- Образование — пристап до училишта или оценување на ученици
- Вработување — скрининг на биографии, оценување на интервјуа, мониторинг на работници
- Клучни услуги — оценување на кредит, цени на осигурување, итна испорака
- Спроведување на законот — предвидување на криминал, биометриска идентификација
- Здравствена заштита — софтвер за медицински уреди, тријажа на пациенти
- Инфраструктура — управување со енергија, вода или транспорт
- Правда — алатки за правно истражување, алатки за пресуди
Работите во кој bilo од овие? Член 10 се применува на вас.
Член 10: Четири клучни правила
Член 10 поставува правила за датасетови кои ги користат AI системите со висок ризик. Еве ги четирите главни.
1. Пишана управа
Датасетовите мора да следат "соодветни практики за управување и менаџмент на податоци." Потребни ви се пишани чекори за собирање, проверки на квалитет и постојан преглед.
2. Тестирање на пристрасност
Записите мора да се проверат за "можни пристрасности" кои можат да предизвикаат неправедни излези. Потребно е активно тестирање. Избегнувањето на намерна пристрасност не е доволно.
3. Точност и покриеност
Датасетовите мора да бидат "релевантни, доволно репрезентативни и без грешки." Веб кроулирањата кои пропуштаат одредени групи може да не го поминат овој тест.
4. Посебни видови записи
Член 10(5) е нај-директното правило. Кога систем со висок ризик користи записи од посебна категорија — здравје, раса, религија, политика, биометрија — можете да ги обработувате само кога е "строго неопходно" за проверки на пристрасност. Мора исто така да применувате "соодветни заштитни мерки." Чистење на податоците е една од најсилните заштитни мерки кои можете да ги користите.
Суштината: повеќето датасетови на AI модели содржат лични записи. Член 10 вели користете го минимумот потребно, со силни технички заштитни мерки.
Видете ја нашата страница за правна усогласеност и преглед на безбедност за детали.
Нивоа на казни
EU AI Act има три нивоа на казни. Сите ги надминуваат GDPR за ист вид прекршување:
| Прописи | Максимална казна | Граница на промет |
|---|---|---|
| GDPR | €20 милиони | 4% глобален промет |
| EU AI Act (висок ризик) | €15 милиони | 3% глобален промет |
| EU AI Act (забранети) | €35 милиони | 7% глобален промет |
Прекршувањата на датасетови спаѓаат во нивото на висок ризик (€15M / 3%). Ако регулатор утврди дека употребата на лични записи без заштитни мерки е забранет чин, се применува највисокото ниво.
Вистински примери: €500M промет на 3% = €15M казна. €5B промет на 3% = €150M казна. Ова се вистински броеви, не теорија.
Зошто чистењето на податоците го решава ова
Правилно исчистените записи паѓаат надвор од опфатот на GDPR. Тоа го отстранува поголемиот дел од товарот на Член 10.
Тешките правила — ракување со посебна категорија, проверки на пристрасност, права на субјектите на податоци — се применуваат само кога датасетот содржи лични записи. Прво отстранете ги тие записи. Товарот главно исчезнува.
CNIL (францускиот орган за податоци) го направи ова јасно почетокот на 2026 година. Неговите AI насоки велат: чистењето на личните записи кои не се потребни за перформансите на моделот е примарната техничка мерка за Член 10.
Ова не е маргинален став. Тоа е мејнстрим позицијата на главниот EU AI регулатор.
Што значи чистење на податоците во практика
Чистењето на датасетови на AI модели не е исто со чистењето на живи производствени записи. Датасетовите на модели можат да содржат:
- Документи со PII — договори, е-пошти, извештаи, барања за поддршка
- Структурирани записи — табели за клиенти кои се користат за градење предикциски модели
- Означена содржина — слики или текст со белешки кои вклучуваат лични податоци
- Синтетички записи — каде генерирањето сепак може да зачувува лични обрасци
Мора да откривате PII во сите овие формати. Пропуштањето на еден вид ја изложува целата база на датотека. Договор со отстранети имиња но цели адреси сепак ќе учи модел да поврзува локација со демографски обрасци.
anonym.legal API ракува со групна обработка за големи AI датасетови. Открива 285+ типови ентитети на 48 јазика. За европски AI компании со мултијазични датасетови, меѓујазичното покривање е критично. Празнина на еден јазик создава ризик по EU AI Act низ целиот систем.
За повеќе за откривање на ентитети, видете го водичот за систем на токени и референцата за типови ентитети.
Практични чекори: Чистење на вашиот датасет
Чекор 1: Прво ревидирајте
Извршете проход за откривање пред да исчистите ништо. Ова ви кажува кое PII е присутно:
```bash curl -X POST https://anonym.legal/api/presidio/analyze \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "text": "'"$(cat document.txt)"'", "language": "en" }' ```
Одговорот ги наведува сите откриени ентитети со нивниот тип, позиција и оценка. Извршете го низ сите ваши датотеки за да го видите целиот опфат пред да започнете.
Чекор 2: Групно чистење
За големи датасетови, користете го batch endpoint за обработка на многу датотеки одеднаш:
```python import requests import os from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]: response = requests.post( "https://anonym.legal/api/presidio/anonymize-batch", json={"items": documents, "language": "en"}, headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"} ) return response.json()["results"]
source_dir = Path("./dataset") docs = [ {"id": f.name, "text": f.read_text()} for f in source_dir.glob("*.txt") ]
batch_size = 50 for i in range(0, len(docs), batch_size): results = scrub_batch(docs[i:i+batch_size]) for result in results: out = source_dir / "clean" / result["id"] out.write_text(result["text"]) print(f"Завршено: {result['id']} — отстранети {len(result['items'])} ентитети") ```
Чекор 3: Чувајте записи
Член 10 бара пишани записи за она што сте го направиле. За секој датасет, чувајте:
- Моделот за откривање и верзијата употребена
- Кои типови ентитети беа пронајдени и како секој беше заменет
- Броеви на ентитети отстранети по датасет
- Датумот на чистење и верзијата на датасетот употребена
Ова ги исполнува барањата за "практики за управување и менаџмент на податоци" во Член 10(2)(а).
Чести прашања
Дали чистењето го нарушува квалитетот на моделот?
Во повеќето случаи, не. Моделот учи обрасци од структурата на текстот, не од личните детали. Имиња, телефонски броеви и адреси можат да се заменат со заменики како `[NAME]` или `[PHONE]` и моделот сепак ги учи истите обрасци. Многу истражувачки тимови утврдиле дека исчистените датасетови произведуваат модели со еднаков квалитет. Клучот е да се користат доследни заменики за да може моделот да види јасен образец.
Што ако мојот датасет е многу голем?
Користете го batch API. Обработува големи волумени паралелно. Страницата за цени покажува планови за случаи на употреба со голем волумен. Многу тимови обработуваат милиони записи месечно.
Што со не-англиски датасетови?
API-то поддржува 48 јазика. Секој јазик користи модел за откривање истренуван на тој јазик. Тоа значи дека германскиот, францускиот, шпанскиот, јапонскиот и другите сите се покриени. Видете го FAQ за целосна листа на јазици. Мешаните јазични датасетови исто така се поддржани — можете да го наведете јазикот по документ во batch барањето.
Колорадскиот AI Act: Два рока
АI Act на Колорадо стапува на сила на 30 јуни 2026 година — пет недели пред EU рокот. Поставува слични правила за "AI системи со висок ризик" под државното право. Главниот фокус е на пристрасноста и дискриминацијата.
Тимовите и во EU и во Колорадо се соочуваат со два рока истовремено. Чистењето на вашите датасетови помага да се исполнат двата закони: Член 10 (EU) и правилата против пристрасност на Колорадо. Техничките чекори се исти.
Дејствувајте сега
Пет месеци се доволни — ако започнете денес. Не се доволни ако чекате до јуни.
Практичен временски распоред:
- Недели 1-2: Ревидирајте ги вашите датасетови — дознајте кои лични записи се присутни
- Недели 3-6: Изградете и тестирајте го вашиот pipeline за чистење
- Недели 7-10: Запишете ги вашите записи за управа; добијте правен преглед
- Недели 11-16: Валидирајте — потврдете дека исчистените датасетови ги исполнуваат правилата за квалитет на Член 10
- 2 август: Датум на спроведување — усогласените практики се на место
anonym.legal API се приклучува на вашиот тековен pipeline без големи промени. Проверете ги цените за планови за волумен. FAQ ги покрива честите прашања за Член 10.
Користете ја контролната листа за усогласеност со GDPR за записи кои се преклопуваат меѓу GDPR и Член 10.
EU AI Act е подготвен за спроведување. Дали вашата организација ќе биде подготвена до 2 август?
Започнете со контролната листа за усогласеност со GDPR →
Ограничувања и отворени прашања
Чистењето на податоците за правилата на AI Act сè уште се развива. Еве ги клучните празнини.
Праговите не се дефинирани. EU AI Act не вели кое ниво на чистење е "доволно." Додека Европската AI канцеларија не издаде насоки, се соочувате со правен ризик. Може да не знаете дали вашиот метод ќе ги задоволи регулаторите.
Ризикот од повторна идентификација останува. Истражувањето покажува дека моделите за голем јазик можат да меморизираат и репродуцираат содржина од нивните датасетови. Записите кои поминале стандарди за чистење пред развојот на моделот сепак може да се извлечат. Чистењето пред развојот не го решава целосно ова.
Синтетичките записи имаат ограничувања. Синтетичкото генерирање ги задржува статистичките обрасци но може да додаде суптилни пристрасности или да пропушти ретки гранични случаи. Моделите изградени само на синтетичка содржина може лошо да работат на вистински влезови.
Член 10 сè уште се толкува. Фразата "соодветни технички мерки" бара толкување. Раната работа на DPA низ EU земјите членки не се утврдила на јасни стандарди. Следете ги насоките на EDPB и одлуките на земјите членки во текот на 2026 година.
Извори
- EU AI Act, Регулатива (EU) 2024/1689, Членови 9-17 (обврски за AI со висок ризик), OJ L 2024/1689
- EU AI Act, Член 10 — Податоци и управа со податоци
- CNIL насоки за AI датасетови, јануари 2026
- Colorado AI Act, SB 205, стапува на сила 30 јуни 2026
- EU AI Act временска линија: забранети практики 2 февруари 2025; системи со висок ризик 2 август 2026