Faragha Inayoweza Kurudiwa: Kwa Nini Timu za ML Zinahitaji Mipangilio, Si Hati Peke Yake

DPO alipitisha mpango wa kusiriwa. Unashughulikia vitu vinne: majina, barua pepe, nambari za simu, na tarehe za kuzaliwa. Njia ni Badilisha. Mpango una kurasa nne na unaishi kwenye wiki ya utiifu.

Wanasayansi 12 wa data waliusoma wakati wa kikao cha kuanzisha. Kila mmoja anasanidi zana peke yake. Wengine wanaongeza vitambulisho vya kitaifa. Wengine wanaongeza anwani za IP. Wengine wanabadilisha hadi Futa. Miezi mitatu baadaye, seti hazina uthabiti.

CNIL ilikagua makampuni kadhaa ya AI mwaka 2024. Suala: matumizi yasiyofaa ya maelezo ya kibinafsi katika seti za mfano. Hawakuuliza tu ikiwa kusiriwa kulitokea. Waliuliza jinsi kilivyotumika kwa uthabiti.

Hati zinahitajika. Hazitoshi. Suluhu ni mipangilio.

Kwa Nini Seti za Mfano wa ML Zinahitaji Usanidi Wao

Kujenga seti za mfano kuna mahitaji ya kipekee. Kusiriwa kwa hati za jumla hakushiriki nao.

Badilisha, si Futa. Mifano iliyofunzwa kwenye maandishi ambapo majina yanakuwa [REDACTED] hujifunza tokeni hiyo kama alama ya nafasi ya jina. Hii inadhuru mfano. Badilisha hubadilisha "John Smith" na "David Chen." Mfano unaona mifumo ya majina halisi. Hauoni tokeni ya kizuizi.

Mchakato sawa kwa rekodi zote. Seti ambapo asilimia 70 ya majina yanabadilishwa na asilimia 30 ni [REDACTED] inatuma ishara mchanganyiko. Kila rekodi lazima ipite hatua zile zile.

Orodha ile ile ya kitengo. Ikiwa seti ina maelezo ya afya, kuondoa majina lakini kuacha tarehe za kuzaliwa katika rekodi fulani kunaunda mapengo. Wanasayansi wote 12 wa data lazima waondoe aina zile zile.

Usiondoe kupita kiasi. Kuondoa tarehe ambazo ni alama za wakati - si tarehe za kuzaliwa - hupunguza ubora wa seti bila faida ya utiifu. Mipangilio iliyoidhinishwa inasema haswa vitu gani vya kuondoa.

Matokeo yanayoweza kurudiwa. Ikiwa seti lazima ipigiwe tena - kwa mfano, baada ya aina ya kitengo iliyokosekana kugunduliwa - mipangilio inatoa matokeo yale yale kila wakati. Usanidi wa kipekee hauitoi.

Tatizo la Wanasayansi Kumi na Wawili wa Data

Timu ya ML ya kifedha barani Ulaya inatumia seti kutoka kwa kumbukumbu za wateja. DPO alipitisha madhumuni - ugunduzi wa ulaghai - na kanuni moja: majina yote ya wateja, barua pepe, nambari za simu, na vitambulisho vya malipo lazima vibadilishwe kabla ya kazi ya mfano kuanza.

Bila mipangilio:

Mtu 1 anaondoa majina, barua pepe, na nambari za simu - lakini anakosa vitambulisho vya malipo
Mtu 2 anajumuisha vitambulisho vya malipo lakini anatumia Futa, si Badilisha
Mtu 3 anafuata hati ya mpango haswa
Watu 4-12 wanatofautiana

Seti iliyounganishwa inakuwa sehemu isiyolingana na sheria na sehemu iliyosindikwa kupita kiasi. DPO hawezi kuisaidia.

Na mipangilio iliyoidhinishwa na DPO:

DPO anatengeneza "ML Dev - Ugunduzi wa Ulaghai" na aina haswa za kitengo na njia ya Badilisha
Mipangilio inaenda kwa watu wote kumi na wawili na kanuni moja: tumia hii kwa kazi yote ya seti
Hakuna mtu anayeweza kubadilisha mipangilio bila idhini ya DPO

Kila mtu sasa anazalisha matokeo yale yale. Seti iliyounganishwa ni thabiti. Ukaguzi wa kila mwaka wa AI hupita bila matokeo. Mwaka uliopita ulikuwa na matokeo matatu kutoka kwa kazi ya seti isiyothabiti.

Imesasishwa kwa 2026

Sheria ya AI ya EU ilianza kutumika kikamilifu Agosti 2024. Inaongeza kanuni kwa mifumo ya AI inayotumia maelezo ya kibinafsi kwa kazi ya mfano. Mifumo ya AI ya hatari ya juu lazima iandike seti zao, ikijumuisha kusiriwa kulikotumiwa.

Ibara ya 5(1)(b) ya GDPR - kanuni ya kikwazo cha madhumuni - inazuia matumizi ya maelezo ya kibinafsi bila msingi wazi wa kisheria. Kesi za CNIL za 2024 zilizingatia pengo hili: maelezo yaliyokusanywa kwa huduma moja yaliyotumiwa kwa kazi ya mfano bila msingi halali au kusiriwa.

Mipangilio husaidia kutimiza seti zote mbili za kanuni:

Jina na usanidi wa mipangilio: njia iliyoandikwa
Rekodi za usindikaji: uthibitisho kwamba njia ilitumika
Idhini ya DPO: sahihi ya kurekodiwa kwenye usanidi

Hii inatengeneza njia ya ukaguzi ambayo sheria zote mbili zinahitaji. Kwa wajibu wa Ibara ya 10 kwa undani, angalia mwongozo wa data ya mafunzo wa Sheria ya AI ya EU.

Usanidi wa Mipangilio kwa Seti za Mfano wa NLP

Aina za kujumuisha katika seti nyingi za mfano wa NLP:

PERSON - Badilisha na majina yanayofanana
EMAIL_ADDRESS - Badilisha na anwani za awali
PHONE_NUMBER - Badilisha na nambari za awali
CREDIT_CARD / IBAN - Badilisha au Futa
LOCATION - Badilisha na maeneo yanayofanana ikiwa mahali pa kijiografia ni muhimu; Futa ikiwa si hivyo
DATE_OF_BIRTH - Futa; upangaji wa umri mara nyingi unahitajika

Aina mara nyingi zinazoachwa nje:

Tarehe za jumla - alama za wakati husaidia mifano ya muda
Majina ya shirika - husaidia mifano ya kitengo chenye jina
URL - husaidia mifano ya kiungo na rejea

Mkuu wa ML na DPO huweka kanuni hizi katika mipangilio iliyoidhinishwa. Wanachama wa timu wazitumie. Hawafanyi uchaguzi wa usanidi.

Mipangilio kama Kumbukumbu ya Kimataasisi

Kabla ya mipangilio. Usanidi sahihi wa kitengo uliishi akilini mwa wanasayansi watatu wa data. Walikuwa wamepitia ukaguzi wa utiifu. Wawili waliondoka Q3. Maarifa yalikwenda nao.

Baada ya mipangilio. Usanidi unaishi katika "ML Dev - Rekodi za Wateja v2.1." Rekodi ya toleo inaonyesha ilipofanywa, nani aliyeisaidia, na kilichobadilika kutoka v2.0. Wanachama wapya wa timu hutumia mipangilio na kupata maarifa yote yaliyojengwa ndani yake.

Toleo 2.1 liliongeza ugunduzi wa IBAN baada ya ukaguzi kuugundua ukiwa umekosekana. Toleo 2.0 liliidhinishwa Februari 2025. Rekodi ni kamili.

Kwa jinsi rekodi za usindikaji na mtiririko wa ukaguzi wa DPO unavyofanya kazi, angalia mwongozo wa kusiriwa kwa data ya mafunzo ya ML ya GDPR.

Mipangilio dhidi ya Mfumo wa CNIL

Kesi za AI za CNIL za 2024 ziliweka mfumo wazi. Wanauliza si tu kilichoondolewa bali jinsi kilivyosimamiwa. Mipangilio iliyoshirikiwa na rekodi ya idhini ya DPO na rekodi za usindikaji hujibu hili moja kwa moja.

Usanidi wa kipekee haujibu. Pengo lile lile lipo katika kesi nyingine za EU DPA zinazofuata mantiki ya CNIL. Kwa maelezo zaidi ya mbinu ya CNIL kwa AI, angalia mwongozo wa utiifu wa AI wa GDPR wa CNIL Ufaransa.

Hitimisho

Hati zinamwambia wanachama wa timu wanapaswa kufanya nini. Mipangilio inafanya iwe rahisi - na inayoweza kutekelezwa - kuifanya kwa njia ile ile kila wakati.

Kwa seti za mfano wa ML, uthabiti ni haja ya kisheria na ya kiufundi. Mipangilio inakidhi zote mbili kwa wakati mmoja.

DPA zinazotazama mazoea ya AI zinataka ushahidi wa kusiriwa sawa. Mipangilio inayotumika kwa njia ile ile kote kwenye kazi yote ya seti ndiyo uthibitisho wazi zaidi unaoeza kuwapa.

Vyanzo

Makala Zinazohusiana

Kitaalamu

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

Anza Jaribio la Bure Tazama Vipengele

Faragha Inayoweza Kurudiwa: Mipangilio ya ML

Faragha Inayoweza Kurudiwa: Kwa Nini Timu za ML Zinahitaji Mipangilio, Si Hati Peke Yake

Kwa Nini Seti za Mfano wa ML Zinahitaji Usanidi Wao

Tatizo la Wanasayansi Kumi na Wawili wa Data

Usanidi wa Mipangilio kwa Seti za Mfano wa NLP

Mipangilio kama Kumbukumbu ya Kimataasisi

Mipangilio dhidi ya Mfumo wa CNIL

Hitimisho

Vyanzo

Makala Zinazohusiana

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Tayari kulinda data yako?

Faragha Inayoweza Kurudiwa: Mipangilio ya ML

Faragha Inayoweza Kurudiwa: Kwa Nini Timu za ML Zinahitaji Mipangilio, Si Hati Peke Yake

Kwa Nini Seti za Mfano wa ML Zinahitaji Usanidi Wao

Tatizo la Wanasayansi Kumi na Wawili wa Data

GDPR na Sheria ya AI

Usanidi wa Mipangilio kwa Seti za Mfano wa NLP

Mipangilio kama Kumbukumbu ya Kimataasisi

Mipangilio dhidi ya Mfumo wa CNIL

Hitimisho

Vyanzo

Makala Zinazohusiana

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Tayari kulinda data yako?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow