Faragha Inayoweza Kurudiwa: Kwa Nini Timu za ML Zinahitaji Mipangilio, Si Hati Peke Yake
DPO alipitisha mpango wa kusiriwa. Unashughulikia vitu vinne: majina, barua pepe, nambari za simu, na tarehe za kuzaliwa. Njia ni Badilisha. Mpango una kurasa nne na unaishi kwenye wiki ya utiifu.
Wanasayansi 12 wa data waliusoma wakati wa kikao cha kuanzisha. Kila mmoja anasanidi zana peke yake. Wengine wanaongeza vitambulisho vya kitaifa. Wengine wanaongeza anwani za IP. Wengine wanabadilisha hadi Futa. Miezi mitatu baadaye, seti hazina uthabiti.
CNIL ilikagua makampuni kadhaa ya AI mwaka 2024. Suala: matumizi yasiyofaa ya maelezo ya kibinafsi katika seti za mfano. Hawakuuliza tu ikiwa kusiriwa kulitokea. Waliuliza jinsi kilivyotumika kwa uthabiti.
Hati zinahitajika. Hazitoshi. Suluhu ni mipangilio.
Kwa Nini Seti za Mfano wa ML Zinahitaji Usanidi Wao
Kujenga seti za mfano kuna mahitaji ya kipekee. Kusiriwa kwa hati za jumla hakushiriki nao.
Badilisha, si Futa. Mifano iliyofunzwa kwenye maandishi ambapo majina yanakuwa [REDACTED] hujifunza tokeni hiyo kama alama ya nafasi ya jina. Hii inadhuru mfano. Badilisha hubadilisha "John Smith" na "David Chen." Mfano unaona mifumo ya majina halisi. Hauoni tokeni ya kizuizi.
Mchakato sawa kwa rekodi zote. Seti ambapo asilimia 70 ya majina yanabadilishwa na asilimia 30 ni [REDACTED] inatuma ishara mchanganyiko. Kila rekodi lazima ipite hatua zile zile.
Orodha ile ile ya kitengo. Ikiwa seti ina maelezo ya afya, kuondoa majina lakini kuacha tarehe za kuzaliwa katika rekodi fulani kunaunda mapengo. Wanasayansi wote 12 wa data lazima waondoe aina zile zile.
Usiondoe kupita kiasi. Kuondoa tarehe ambazo ni alama za wakati - si tarehe za kuzaliwa - hupunguza ubora wa seti bila faida ya utiifu. Mipangilio iliyoidhinishwa inasema haswa vitu gani vya kuondoa.
Matokeo yanayoweza kurudiwa. Ikiwa seti lazima ipigiwe tena - kwa mfano, baada ya aina ya kitengo iliyokosekana kugunduliwa - mipangilio inatoa matokeo yale yale kila wakati. Usanidi wa kipekee hauitoi.
Tatizo la Wanasayansi Kumi na Wawili wa Data
Timu ya ML ya kifedha barani Ulaya inatumia seti kutoka kwa kumbukumbu za wateja. DPO alipitisha madhumuni - ugunduzi wa ulaghai - na kanuni moja: majina yote ya wateja, barua pepe, nambari za simu, na vitambulisho vya malipo lazima vibadilishwe kabla ya kazi ya mfano kuanza.
Bila mipangilio:
- Mtu 1 anaondoa majina, barua pepe, na nambari za simu - lakini anakosa vitambulisho vya malipo
- Mtu 2 anajumuisha vitambulisho vya malipo lakini anatumia Futa, si Badilisha
- Mtu 3 anafuata hati ya mpango haswa
- Watu 4-12 wanatofautiana
Seti iliyounganishwa inakuwa sehemu isiyolingana na sheria na sehemu iliyosindikwa kupita kiasi. DPO hawezi kuisaidia.
Na mipangilio iliyoidhinishwa na DPO:
- DPO anatengeneza "ML Dev - Ugunduzi wa Ulaghai" na aina haswa za kitengo na njia ya Badilisha
- Mipangilio inaenda kwa watu wote kumi na wawili na kanuni moja: tumia hii kwa kazi yote ya seti
- Hakuna mtu anayeweza kubadilisha mipangilio bila idhini ya DPO
Kila mtu sasa anazalisha matokeo yale yale. Seti iliyounganishwa ni thabiti. Ukaguzi wa kila mwaka wa AI hupita bila matokeo. Mwaka uliopita ulikuwa na matokeo matatu kutoka kwa kazi ya seti isiyothabiti.
GDPR na Sheria ya AI
Imesasishwa kwa 2026
Sheria ya AI ya EU ilianza kutumika kikamilifu Agosti 2024. Inaongeza kanuni kwa mifumo ya AI inayotumia maelezo ya kibinafsi kwa kazi ya mfano. Mifumo ya AI ya hatari ya juu lazima iandike seti zao, ikijumuisha kusiriwa kulikotumiwa.
Ibara ya 5(1)(b) ya GDPR - kanuni ya kikwazo cha madhumuni - inazuia matumizi ya maelezo ya kibinafsi bila msingi wazi wa kisheria. Kesi za CNIL za 2024 zilizingatia pengo hili: maelezo yaliyokusanywa kwa huduma moja yaliyotumiwa kwa kazi ya mfano bila msingi halali au kusiriwa.
Mipangilio husaidia kutimiza seti zote mbili za kanuni:
- Jina na usanidi wa mipangilio: njia iliyoandikwa
- Rekodi za usindikaji: uthibitisho kwamba njia ilitumika
- Idhini ya DPO: sahihi ya kurekodiwa kwenye usanidi
Hii inatengeneza njia ya ukaguzi ambayo sheria zote mbili zinahitaji. Kwa wajibu wa Ibara ya 10 kwa undani, angalia mwongozo wa data ya mafunzo wa Sheria ya AI ya EU.
Usanidi wa Mipangilio kwa Seti za Mfano wa NLP
Aina za kujumuisha katika seti nyingi za mfano wa NLP:
- PERSON - Badilisha na majina yanayofanana
- EMAIL_ADDRESS - Badilisha na anwani za awali
- PHONE_NUMBER - Badilisha na nambari za awali
- CREDIT_CARD / IBAN - Badilisha au Futa
- LOCATION - Badilisha na maeneo yanayofanana ikiwa mahali pa kijiografia ni muhimu; Futa ikiwa si hivyo
- DATE_OF_BIRTH - Futa; upangaji wa umri mara nyingi unahitajika
Aina mara nyingi zinazoachwa nje:
- Tarehe za jumla - alama za wakati husaidia mifano ya muda
- Majina ya shirika - husaidia mifano ya kitengo chenye jina
- URL - husaidia mifano ya kiungo na rejea
Mkuu wa ML na DPO huweka kanuni hizi katika mipangilio iliyoidhinishwa. Wanachama wa timu wazitumie. Hawafanyi uchaguzi wa usanidi.
Mipangilio kama Kumbukumbu ya Kimataasisi
Kabla ya mipangilio. Usanidi sahihi wa kitengo uliishi akilini mwa wanasayansi watatu wa data. Walikuwa wamepitia ukaguzi wa utiifu. Wawili waliondoka Q3. Maarifa yalikwenda nao.
Baada ya mipangilio. Usanidi unaishi katika "ML Dev - Rekodi za Wateja v2.1." Rekodi ya toleo inaonyesha ilipofanywa, nani aliyeisaidia, na kilichobadilika kutoka v2.0. Wanachama wapya wa timu hutumia mipangilio na kupata maarifa yote yaliyojengwa ndani yake.
Toleo 2.1 liliongeza ugunduzi wa IBAN baada ya ukaguzi kuugundua ukiwa umekosekana. Toleo 2.0 liliidhinishwa Februari 2025. Rekodi ni kamili.
Kwa jinsi rekodi za usindikaji na mtiririko wa ukaguzi wa DPO unavyofanya kazi, angalia mwongozo wa kusiriwa kwa data ya mafunzo ya ML ya GDPR.
Mipangilio dhidi ya Mfumo wa CNIL
Kesi za AI za CNIL za 2024 ziliweka mfumo wazi. Wanauliza si tu kilichoondolewa bali jinsi kilivyosimamiwa. Mipangilio iliyoshirikiwa na rekodi ya idhini ya DPO na rekodi za usindikaji hujibu hili moja kwa moja.
Usanidi wa kipekee haujibu. Pengo lile lile lipo katika kesi nyingine za EU DPA zinazofuata mantiki ya CNIL. Kwa maelezo zaidi ya mbinu ya CNIL kwa AI, angalia mwongozo wa utiifu wa AI wa GDPR wa CNIL Ufaransa.
Hitimisho
Hati zinamwambia wanachama wa timu wanapaswa kufanya nini. Mipangilio inafanya iwe rahisi - na inayoweza kutekelezwa - kuifanya kwa njia ile ile kila wakati.
Kwa seti za mfano wa ML, uthabiti ni haja ya kisheria na ya kiufundi. Mipangilio inakidhi zote mbili kwa wakati mmoja.
DPA zinazotazama mazoea ya AI zinataka ushahidi wa kusiriwa sawa. Mipangilio inayotumika kwa njia ile ile kote kwenye kazi yote ya seti ndiyo uthibitisho wazi zaidi unaoeza kuwapa.