Hati Moja Haitoshi
Kila timu ya sayansi ya data imeandika kitu kama hiki:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}', '[EMAIL]', text)
Hii inabadilisha anwani za barua pepe. Hiyo ndiyo inachofanya. Seti ya data bado ina majina, nambari za simu, na vitambulisho vya matibabu. Itashindwa ukaguzi wa GDPR.
Pengo kati ya "nilitokuwa na utambulisho wa barua pepe" na "seti hii ya data inazingatia GDPR" ni kubwa. Timu zinakosa tathmini hii wakati wote.
Kwa Nini GDPR Inazuia Mafunzo ya ML
Ibara ya 5(1)(b) ya GDPR ndiyo kanuni kuu. Inaitwa kanuni ya ukomo wa madhumuni. Rekodi za kibinafsi zinaweza kutumika tu kwa madhumuni zilizokusanywa nazo.
Maagizo ya wateja yalikusanywa kwa utimilifu wa maagizo. Si kwa mafunzo ya modeli ya mapendekezo. Rekodi za afya zilikusanywa kwa matibabu. Si kwa mafunzo ya modeli ya kurudia kulazwa. Majibu ya uchunguzi yalikusanywa kwa maoni ya bidhaa. Si kwa mafunzo ya kiainishaji cha hisia.
Kutumia rekodi hizo kwa mafunzo ya ML, timu inahitaji moja kati ya mambo matatu:
- Idhini wazi kutoka kwa kila mtu kwa madhumuni ya ML - ngumu kupata, mara nyingi haiwezekani nyuma ya wakati
- Tathmini ya maslahi halali inayoonyesha matumizi ya ML yanafaa - kutokuwa na uhakika kisheria, inategemea DPA
- Kutokuwa na utambulisho - kubadilisha au kuondoa maelezo ya kibinafsi ili seti ya data isije kuwa ya kibinafsi chini ya GDPR
Kutokuwa na utambulisho sahihi kunatoa uhakika zaidi wa kisheria. Changamoto ni kuifanya vizuri kila wakati.
Tatizo la Hati za Mara Moja
Timu zinazoandika hati mpya ya Python kwa kila seti ya data zinaunda matatizo yanayozidi.
Uwezo usio kamili. Hati iliyojengwa kwa mchakato mmoja inakosa sehemu mpya. Safu ya maelezo ya kliniki iliyoongezwa miezi sita iliyopita? Haiko katika regex. Sehemu ya jina la kati? Hati inashughulikia mifumo ya jina la kwanza na la mwisho tu.
Kukosa uthabiti. Seti ya data A ilisindika kwa script_v1. Seti ya data B ilitumia script_v3. Seti ya data C ilisindika na mwanachama mwingine wa timu. Seti ya mafunzo iliyounganishwa ina mbinu tatu tofauti zilizotumika. DPO hawezi kuthibitisha.
Hakuna rekodi ya ukaguzi. Hati ilifanya kazi. Ilichobadilisha ni nini? Vitengo vipi vilipatikana? Bila rekodi za usindikaji, kufuata sheria haiwezekani. Wakati mkaguzi wa DPA anauliza "unajuaje seti hii ya mafunzo ni safi?", jibu "tulifanya hati ya Python" haitoshi.
Mabadiliko ya modeli. Mifumo ya Regex iliyofanya kazi mwaka 2023 inakosa muundo mpya wa vitambulisho kutoka 2024. Hati hazijisasishi.
Mwongozo wa Usindikaji wa Kundi
Timu ya AI ya afya inahitaji kutokuwa na utambulisho wa rekodi 8,000 za wagonjwa. Timu ya Marekani inahitaji upatikanaji kutoka ofisi ya EU. Schrems II inatumika - rekodi za asili ya EU haziwezi kwenda kwa miundombinu ya Marekani bila ulinzi sahihi.
Njia ya kawaida: Mhandisi wa data anaandika hati ya kawaida. Siku mbili hadi tatu za maendeleo. Siku moja hadi mbili za ukaguzi wa DPO. Siku moja ya marudio. Jumla: siku nne hadi sita. Mradi wa ML unachelewa.
Njia ya usindikaji wa kundi:
- Hamisha rekodi 8,000 kama CSV
- Pakia kwa usindikaji wa kundi
- Weka aina za vitengo: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Chagua njia: Badilisha (inabadilisha thamani za syntetiki za kweli ili kuhifadhi muundo)
- Sinda: dakika 45 kwa rekodi 8,000
- Pakua CSV safi
- DPO anakagua metadata ya usindikaji - vitengo vilivyopatikana kwa kila rekodi, mbinu zilizotumika: masaa 2
- DPO anaidhinisha. Uhamishaji unafanyika.
Jumla ya muda: dakika 45 pamoja na masaa 2 ya ukaguzi wa DPO. Badala ya siku nne hadi sita.
Angalia mwongozo wa mafunzo ya EU AI Act jinsi hatua hizo hizo zinavyotimiza wajibu wa Ibara ya 10.
Badilisha dhidi ya Ufutaji kwa Matumizi ya ML
Njia ya kutokuwa na utambulisho inaumia ubora wa modeli.
Futa inabadilisha PII na tokeni kama [REDACTED]. Hii inafanya kazi kwa modeli za kutambua PII. Kwa kazi nyingine - hisia, uainishaji, mapendekezo - inaumiza. Modeli inajifunza kwamba [REDACTED] ni tokeni maalum. Haiwezi kujifunza kutoka kwa usambazaji wa asili wa majina na thamani.
Badilisha inabadilisha "John Smith" na "David Chen." Inabadilisha "jsmith@company.com" na "dchen@synthetic.com." Muundo unabaki. Uwekaji wa vitengo, mifumo ya kuonekana pamoja, mtiririko wa sentensi - yote yanabaki. Modeli inajifunza kutoka kwa muktadha wa kweli.
Kwa seti za mafunzo ya ML, Badilisha ni chaguo sahihi. Modeli haijifunzi thamani bandia. Inajifunza mifumo inayozunguka. Hiyo ndiyo inayohusika.
Schrems II na Uhamishaji wa Mpakani
Uamuzi wa Schrems II (CJEU, 2020) ulibatilisha EU-US Privacy Shield. Rekodi za asili ya EU haziwezi kwenda kwa miundombinu ya ML ya Marekani - AWS US-East, GCP US-Central - bila ulinzi sahihi wa uhamishaji.
Ulinzi mitatu kuu ni:
- Vifungu vya Kimkataba vya Kawaida na Tathmini ya Athari za Uhamishaji
- Kanuni za Shirika la Lazima kwa uhamishaji ndani ya kikundi cha kampuni
- Kutengwa kwa rekodi zisizo na utambulisho - faili zilizotokuwa na utambulisho vizuri haziko za kibinafsi chini ya GDPR na zimesamehewa kutoka sheria za uhamishaji
Kwa timu zinazotumia miundombinu ya Marekani na seti za asili ya EU, kutokuwa na utambulisho sahihi kunaondoa tatizo la Schrems II. Seti safi si ya kibinafsi. Inaweza kuhamia bila kikwazo.
Hii ni moja ya faida za vitendo zenye nguvu zaidi za kutokuwa na utambulisho wa kundi. Inafanya zaidi ya kutimiza GDPR. Inaondoa msuguano wa mpakani kabisa.
Kwa maelezo zaidi ya vizuizi vya uhamishaji, angalia mwongozo wa ukomo wa madhumuni ya GDPR.
Nini cha Kumpa DPO
Wakaati wa kuwasilisha seti safi ya mafunzo kwa idhini ya DPO, jumuisha vitu hivi vitano:
- Maelezo ya chanzo. Seti ya data ya asili ilikuwa nini? Madhumuni ya kukusanya yalikuwa nini? Makundi gani ya kibinafsi yalikuwa ndani yake?
- Usanidi wa kutokuwa na utambulisho. Aina zipi za vitengo ziligunduliwa na kubadilishwa? Njia gani ilitumika?
- Metadata ya usindikaji. Idadi ya vitengo kwa kila rekodi, alama za kujiamini, rekodi zote zilizosindikwa.
- Tathmini ya hatari iliyobaki. Uwezekano ni upi kwamba mtu yeyote anaweza kutambuliwa tena? Kwa kutokuwa na utambulisho wa njia ya Badilisha na aina 285+ za vitengo kwenye maandiko yaliyoundwa, uwezekano huu ni mdogo sana.
- Matumizi yaliyokusudiwa. Modeli gani itafunzwa? Madhumuni ya mafunzo ni nini?
Usindikaji wa kundi unatoa vitu 2 na 3 kwa kiotomatiki. Vitu 1, 4, na 5 vinatoka kwa mwanasayansi wa data.
Angalia API ya kundi ya anonym.legal jinsi metadata ya usindikaji inavyorudishwa na kila kazi.
Unachopata
Seti za ML zinazozingatia GDPR zinawezekana bila hati za kawaida, bila ucheleweshaji wa siku nyingi, na bila kupoteza ubora wa modeli.
Njia ya Badilisha inabaki na sifa za lugha asilia zinazohusika kwa mafunzo ya NLP. Inaondoa maelezo ya kibinafsi yanayounda hatari ya GDPR.
Dakika 45 za usindikaji wa kundi ni tofauti kati ya ukaguzi wa ucheleweshaji wa kufuata sheria na idhini rahisi ya DPO.