Kuhesabu Kumeanza

Imesasishwa kwa 2026

Tarehe ya mwisho ya Sheria ya AI ya EU ni ya kweli. Sheria za Kifungu cha 10 zinatumika kutoka Agosti 2, 2026. Timu yako ikijenga au kuendesha mfumo wa AI wa hatari ya juu, tenda sasa. Muda ni mfupi.

Faini zinazidi GDPR. Faini ya juu kabisa ni €35 milioni au 7% ya mauzo ya kila mwaka ya kimataifa. GDPR inakoma kwa €20 milioni au 4%. Hakuna sheria nyingine ya AI yenye faini za juu zaidi.

Mifumo Gani ya AI Iko Hatarini?

Sheria ya AI inapanga mifumo kwa hatari. Mifumo ya hatari ya juu (Kiambatisho III) inashughulikia AI inayotumika katika:

Elimu — ufikiaji wa shule au ufuatiliaji wa wanafunzi
Kazi — uchunguzi wa CV, ufuatiliaji wa mahojiano, ufuatiliaji wa wafanyakazi
Huduma muhimu — ufuatiliaji wa mkopo, bei ya bima, usambaazaji wa dharura
Utekelezaji wa sheria — utabiri wa uhalifu, kitambulisho cha biometriki
Afya — programu ya vifaa vya matibabu, triagi ya wagonjwa
Miundombinu — usimamizi wa nishati, maji, au usafiri
Haki — zana za utafiti wa kisheria, zana za hukumu

Unafanya kazi katika maeneo hayo yoyote? Kifungu cha 10 kinatumika kwako.

Kifungu cha 10: Sheria Nne Kuu

Kifungu cha 10 kinaweka sheria kwa seti za data zinazotumika na mifumo ya AI ya hatari ya juu. Hapa kuna nne kuu.

1. Utawala Uliorekodiwa

Seti za data lazima zifuate "mazoea yanayofaa ya utawala na usimamizi wa data." Unahitaji hatua zilizoandikwa kwa ukusanyaji, ukaguzi wa ubora, na mapitio yanayoendelea.

2. Upimaji wa Upendeleo

Rekodi lazima zikaguliwe kwa "upendeleo unaowezekana" unaoweza kusababisha matokeo yasiyokuwa ya haki. Upimaji hai unahitajika. Kuepuka upendeleo wa kukusudia haitoshi.

3. Usahihi na Ufunikaji

Seti za data lazima ziwe "muhimu, za kutosha za uwakilishi, na zisizo na makosa." Utafutaji wa wavuti unaokosa vikundi fulani unaweza kushindwa mtihani huu.

4. Aina Maalum za Rekodi

Kifungu cha 10(5) ndicho sheria ya moja kwa moja zaidi. Mfumo wa hatari ya juu ukitumia rekodi za aina maalum — afya, rangi, dini, siasa, biometriki — unaweza tu kuzisindika wakati "inahitajika sana" kwa ukaguzi wa upendeleo. Lazima pia utumie "ulinzi unaofaa." Usafi wa data ni moja ya ulinzi madhubuti zaidi unaowezeska kutumia.

Muhtasari: seti nyingi za data za mfano wa AI zinashikilia rekodi za kibinafsi. Kifungu cha 10 kinasema tumia kiwango cha chini kinachohitajika, na ulinzi madhubuti wa kiufundi.

Angalia ukurasa wetu wa uzingatiaji wa kisheria na muhtasari wa usalama kwa maelezo zaidi.

Viwango vya Faini

Sheria ya AI ya EU ina viwango vitatu vya faini. Vyote vinazidi GDPR kwa aina ile ile ya ukiukwaji:

Udhibiti	Faini ya Juu	Ukomo wa Mauzo
GDPR	€20 milioni	4% mauzo ya kimataifa
Sheria ya AI ya EU (hatari ya juu)	€15 milioni	3% mauzo ya kimataifa
Sheria ya AI ya EU (iliyokatazwa)	€35 milioni	7% mauzo ya kimataifa

Ukiukwaji wa seti za data unaanguka katika kiwango cha hatari ya juu (€15M / 3%). Msimamizi akigundua kwamba kutumia rekodi za kibinafsi bila ulinzi ni tendo lililokatazwa, kiwango cha juu kinatumika.

Mifano ya kweli: mauzo ya €500M kwa 3% = faini ya €15M. Mauzo ya €5B kwa 3% = faini ya €150M. Hizi ni nambari za kweli, si nadharia.

Kwa Nini Usafi wa Data Unatatua Hili

Rekodi zilizosafishwa vizuri zinaanguka nje ya upeo wa GDPR. Hiyo inaondoa mzigo mkubwa wa Kifungu cha 10.

Sheria ngumu — usimamizi wa aina maalum, ukaguzi wa upendeleo, haki za kipengele cha data — zinatumika tu wakati seti ya data inashikilia rekodi za kibinafsi. Ondoa rekodi hizo kwanza. Mzigo mkubwa unaenda.

CNIL (mamlaka ya Ufaransa ya data) ilifanya hili wazi mapema mwaka 2026. Mwongozo wake wa AI unasema hivi: usafi wa data wa rekodi za kibinafsi zisizohitajika kwa utendaji wa mfano ndiyo hatua ya msingi ya kiufundi ya Kifungu cha 10.

Hii si mtazamo wa pembezoni. Ni msimamo wa kawaida wa mdhibiti mkuu wa AI wa EU.

Maana ya Usafi wa Data Katika Vitendo

Kusafisha seti za data za mfano wa AI si sawa na kusafisha rekodi za uzalishaji wa moja kwa moja. Seti za data za mfano zinaweza kushikilia:

Hati zenye PII — mikataba, barua pepe, ripoti, tiketi za msaada
Rekodi zilizopangwa — jedwali la wateja linalotumika kujenga mifano ya utabiri
Maudhui yaliyoannoteshwa — picha au maandishi yenye maelezo yanayojumuisha data ya kibinafsi
Rekodi za sintetiki — ambapo uzalishaji unaweza bado kuhifadhi mifumo ya kibinafsi

Lazima utambue PII katika miundo yote hii. Kukosa aina moja kunafichua seti nzima ya data. Mkataba wenye majina yaliyoondolewa lakini anwani kamili bado zilizobaki utafundisha mfano kuunganisha mahali na mifumo ya kidemografia.

API ya anonym.legal inashughulikia usindikaji wa kundi kwa seti kubwa za data za AI. Inatambua aina 285+ za vipengele katika lugha 48. Kwa kampuni za AI za Ulaya zenye seti za data za lugha nyingi, ufunikaji wa lugha nyingi ni muhimu. Pengo katika lugha moja linazalisha hatari ya Sheria ya AI ya EU katika mfumo wote.

Kwa habari zaidi kuhusu utambuzi wa vipengele, angalia mwongozo wa mfumo wa tokeni na kumbukumbu ya aina za vipengele.

Hatua za Vitendo: Kusafisha Seti Yako ya Data

Hatua ya 1: Kagua kwanza

Endesha upitio wa utambuzi kabla ya kusafisha chochote. Hii inakuambia PII gani ipo:

```bash curl -X POST https://anonym.legal/api/presidio/analyze \ -H "Authorization: Bearer YOUR_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "text": "'"$(cat document.txt)"'", "language": "en" }' ```

Jibu linaorodhesha kila kipengele kilichotambuliwa na aina yake, nafasi yake, na alama yake. Endesha hili kwenye faili zako zote ili kuona upeo kamili kabla hujaanza.

Hatua ya 2: Safisha kwa kundi

Kwa seti kubwa za data, tumia mwisho wa kundi kusindika faili nyingi mara moja:

```python import requests import os from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]: response = requests.post( "https://anonym.legal/api/presidio/anonymize-batch", json={"items": documents, "language": "en"}, headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"} ) return response.json()["results"]

source_dir = Path("./dataset") docs = [ {"id": f.name, "text": f.read_text()} for f in source_dir.glob("*.txt") ]

batch_size = 50 for i in range(0, len(docs), batch_size): results = scrub_batch(docs[i:i+batch_size]) for result in results: out = source_dir / "clean" / result["id"] out.write_text(result["text"]) print(f"Imekamilika: {result['id']} — vipengele {len(result['items'])} vimeondolewa") ```

Hatua ya 3: Hifadhi rekodi

Kifungu cha 10 kinahitaji rekodi zilizoandikwa za ulichofanya. Kwa kila seti ya data, hifadhi:

Mfano wa utambuzi na toleo lililotumika
Aina gani za vipengele zilipatikana na jinsi kila moja ilivyobadilishwa
Hesabu za vipengele vilivyoondolewa kwa kila seti ya data
Tarehe ya usafi na toleo la seti ya data lililotumika

Hii inakidhi mahitaji ya "mazoea ya utawala na usimamizi wa data" katika Kifungu cha 10(2)(a).

Maswali ya Kawaida

Je, usafi unasababisha kupungua kwa ubora wa mfano?

Katika kesi nyingi, hapana. Mfano unajifunza mifumo kutoka kwa muundo wa maandishi, si maelezo ya kibinafsi. Majina, nambari za simu, na anwani zinaweza kubadilishwa na alama kama vile `[JINA]` au `[SIMU]` na mfano bado unajifunza mifumo ile ile. Timu nyingi za utafiti zimegundua kwamba seti za data zilizosafishwa huzalisha mifano ya ubora sawa. Ufunguo ni kutumia alama thabiti ili mfano uone mfumo wazi.

Je, seti yangu ya data ni kubwa sana?

Tumia API ya kundi. Inashughulikia wingi mkubwa kwa wakati mmoja. Ukurasa wa bei unaonyesha mipango kwa matumizi ya wingi mkubwa. Timu nyingi zinasindika rekodi za mamilioni kila mwezi.

Je, seti zangu za data zisizo za Kiingereza?

API inaunga mkono lugha 48. Kila lugha hutumia mfano wa utambuzi uliofunzwa kwa lugha hiyo. Hii inamaanisha Kijerumani, Kifaransa, Kihispania, Kijapani, na nyingine zote zimelingwa. Angalia Maswali Yanayoulizwa Mara Kwa Mara kwa orodha kamili ya lugha. Seti za data za lugha mchanganyiko pia zinaungwa mkono — unaweza kubainisha lugha kwa kila hati katika ombi la kundi.

Sheria ya AI ya Colorado: Tarehe Mbili za Mwisho

Sheria ya AI ya Colorado inaanza kutumika tarehe 30 Juni 2026 — wiki tano kabla ya tarehe ya mwisho ya EU. Inaweka sheria zinazofanana kwa "mifumo ya AI ya hatari ya juu" chini ya sheria ya jimbo. Mwelekeo mkuu ni upendeleo na ubaguzi.

Timu zilizo katika EU na Colorado zinakabiliwa na tarehe mbili za mwisho mara moja. Kusafisha seti zako za data kunasaidia kukidhi sheria zote mbili: Kifungu cha 10 (EU) na sheria za kupambana na upendeleo za Colorado. Hatua za kiufundi ni sawa.

Tenda Sasa

Miezi mitano inatosha — ukianza leo. Haitoshi ukisubiri hadi Juni.

Ratiba ya vitendo:

Wiki 1-2: Kagua seti zako za data — gundua rekodi za kibinafsi zipi zipo
Wiki 3-6: Jenga na upime mtiririko wako wa usafi
Wiki 7-10: Andika rekodi zako za utawala; pata mapitio ya kisheria
Wiki 11-16: Thibitisha — hakikisha seti za data zilizosafishwa zinakidhi sheria za ubora za Kifungu cha 10
Agosti 2: Tarehe ya utekelezaji — mazoea yanayozingatia yamewekwa

API ya anonym.legal inaunganishwa na mtiririko wako wa sasa bila mabadiliko makubwa. Angalia bei kwa mipango ya wingi. Maswali Yanayoulizwa Mara Kwa Mara yanashughulikia maswali ya kawaida ya Kifungu cha 10.

Tumia orodha ya ukaguzi ya uzingatiaji wa GDPR kwa rekodi zinazopishana kati ya GDPR na Kifungu cha 10.

Sheria ya AI ya EU iko tayari kutekeleza. Je, shirika lako litakuwa tayari ifikapo Agosti 2?

Anza na orodha ya ukaguzi ya uzingatiaji wa GDPR →

Mipaka na Maswali Wazi

Usafi wa data kwa sheria za Sheria ya AI bado unabadilika. Hapa kuna mapungufu muhimu.

Viwango havijafafanuliwa. Sheria ya AI ya EU haisemi kiwango gani cha usafi ni "cha kutosha." Hadi Ofisi ya AI ya Ulaya itakapotoa mwongozo, unakabiliwa na hatari ya kisheria. Huenda usijue kama njia yako itaridhisha wasimamizi.

Hatari ya utambulisho upya inabaki. Utafiti unaonyesha mifano mikubwa ya lugha inaweza kukariri na kurudia maudhui kutoka kwenye seti zao za data. Rekodi zilizopita viwango vya usafi kabla ya maendeleo ya mfano bado zinaweza kuonyeshwa. Usafi kabla ya maendeleo hautatui tatizo hili kikamilifu.

Rekodi za sintetiki zina mipaka. Uzalishaji wa sintetiki huhifadhi mifumo ya takwimu lakini unaweza kuongeza upendeleo mdogo au kukosa kesi nadra. Mifano iliyojengwa kwenye maudhui ya sintetiki tu inaweza kufanya vibaya kwenye ingizo la kweli.

Kifungu cha 10 bado kinakaliliwa. Msemo "hatua zinazofaa za kiufundi" unahitaji tafsiri. Kazi ya mapema ya DPA katika nchi wanachama wa EU haijaweka viwango wazi. Angalia mwongozo wa EDPB na maamuzi ya nchi wanachama katika 2026 yote.

Vyanzo

Sheria ya AI ya EU, Kanuni (EU) 2024/1689, Vifungu vya 9-17 (wajibu wa AI wa hatari ya juu), OJ L 2024/1689
Sheria ya AI ya EU, Kifungu cha 10 — Data na utawala wa data
Mwongozo wa seti za data za AI wa CNIL, Januari 2026
Sheria ya AI ya Colorado, SB 205, inayotumika Juni 30, 2026
Ratiba ya Sheria ya AI ya EU: mazoea yaliyokatazwa Februari 2, 2025; mifumo ya hatari ya juu Agosti 2, 2026

Sheria ya AI ya EU Agosti 2026: Kufuta Utambulisho wa Data ya Mafunzo Kukidhi Kifungu cha 10

Kuhesabu Kumeanza

Mifumo Gani ya AI Iko Hatarini?

Kifungu cha 10: Sheria Nne Kuu

Viwango vya Faini

Kwa Nini Usafi wa Data Unatatua Hili

Maana ya Usafi wa Data Katika Vitendo

Hatua za Vitendo: Kusafisha Seti Yako ya Data

Maswali ya Kawaida

Sheria ya AI ya Colorado: Tarehe Mbili za Mwisho

Tenda Sasa

Mipaka na Maswali Wazi

Vyanzo

Makala Zinazohusiana

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Tayari kulinda data yako?

Sheria ya AI ya EU Agosti 2026: Kufuta Utambulisho wa Data ya Mafunzo Kukidhi Kifungu cha 10

Kuhesabu Kumeanza

Mifumo Gani ya AI Iko Hatarini?

Kifungu cha 10: Sheria Nne Kuu

Viwango vya Faini

Kwa Nini Usafi wa Data Unatatua Hili

Maana ya Usafi wa Data Katika Vitendo

Hatua za Vitendo: Kusafisha Seti Yako ya Data

Maswali ya Kawaida

Sheria ya AI ya Colorado: Tarehe Mbili za Mwisho

Tenda Sasa

Mipaka na Maswali Wazi

Vyanzo

Makala Zinazohusiana

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Tayari kulinda data yako?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow