CNIL Ufaransa: Mahitaji ya Zana za PII za DPA
CNIL ya Ufaransa ndiyo chombo cha data kinachohitajika zaidi katika EU. Walinzi wengi wa EU wanaandika kanuni pana. CNIL inaenda mbali zaidi. Inachapisha mwongozo wa kiufundi maalum unaoitwa recommandations. Hizi zinaweka viwango sahihi vya usimbaji fiche na matumizi ya data ya AI.
Arifa za CNIL mwaka 2024 mara nyingi zilinukuu usimbaji fiche dhaifu katika mifumo ya AI. Wakala ulichukua malalamiko 16,433 mwaka 2023. Hiyo ilikuwa ongezeko la asilimia 43 zaidi ya mwaka 2022.
Mwongozo wa CNIL Unaoshapa Sera ya EU
Matini ya kiufundi ya CNIL yananukuliwa sana na DPA nyingine za EU. Miongozo miwili ina umuhimu zaidi.
Guide pratique de l'anonymisation (2023): Mwongozo huu unashughulikia k-anonymity, l-diversity, na faragha tofauti. Unaonyesha jinsi ya kutumia kila mbinu kwenye data ya Kifaransa. IMY ya Sweden na vyombo vingine vya EU vimeinukuu katika kanuni zao wenyewe.
Mwongozo wa mifumo ya AI (2024): CNIL inaorodhesha aina sita za data ambazo lazima zishughulikiwe katika mafunzo ya AI. Hakuna DPA nyingine ya EU iliyokwenda mbali hivi kuhusu AI.
Kanuni za vidakuzi: Mwongozo wa vidakuzi wa CNIL unaweka kiwango cha juu zaidi cha kiufundi cha zana za idhini katika EU. Unasasishwa mara kwa mara.
NIR: Kitambulisho Nyeti Zaidi cha Ufaransa
Numero d'Inscription au Repertoire (NIR) -- pia inaitwa numero de securite sociale -- ni nambari ya usalama wa jamii ya Kifaransa yenye tarakimu 15.
Muundo wake ni: S AA MM DD CCC OOO K
- S -- tarakimu 1: jinsia
- AA -- mwaka wa kuzaliwa
- MM -- mwezi wa kuzaliwa
- DD -- idara ya kuzaliwa (01-95, 2A/2B kwa Corsica, 97-99 ng'ambo, 99 ya kigeni)
- CCC -- nambari ya manispaa
- OOO -- mpangilio wa kuzaliwa
- K -- ufunguo wa ukaguzi wa tarakimu 2 (97 - (NIR mod 97))
NIR inashikilia jinsia, tarehe ya kuzaliwa, na mahali pa kuzaliwa katika nambari moja. CNIL inaitendea kama ya hatari kubwa. Inahitaji uangalifu sawa na data ya kategoria maalum chini ya GDPR Kifungu cha 9.
Kwa nini zana zinakosa NIR: Zana za jumla za NLP zinashindwa kwenye NIR kwa sababu tatu. Kwanza, tarakimu 15 (mara nyingi zimeandikwa bila nafasi) zinaonekana kama nambari nyingine ndefu. Pili, tarakimu 7-11 zinashikilia nambari ya idara. Zana zinazoruka ukaguzi wa mod-97 zinaruhusu uwongo wa "chanya" kupita. Tatu, idara za Corsica zinatumia 2A na 2B, si tarakimu tu. Zana zilizojengwa kwa mifumo ya tarakimu-tu zinashindwa hapa.
Utambuzi mzuri wa NIR unahitaji mambo matatu: ukaguzi wa ufunguo wa mod-97, kitabu cha nambari za kijiografia, na kanuni zinazojua Corsica.
Tazama muhtasari wetu wa uzingatiaji wa usalama jinsi msaada wa kitambulisho unavyoendana na mrundikano wa dhamana ya GDPR.
SIREN na SIRET: Vitambulisho vya Biashara katika Faili za Kibinafsi
SIREN: Kitambulisho cha kampuni cha Kifaransa cha tarakimu 9 chenye tarakimu ya ukaguzi ya Luhn. Kinaonekana katika hati zote za biashara za Kifaransa.
SIRET: Nambari ya tarakimu 14 iliyojengwa kutoka SIREN (tarakimu 9) pamoja na nambari ya uanzishwaji (tarakimu 5). SIRET inaitaja tovuti. SIREN inaitaja kampuni.
Mawasiliano ya biashara mara nyingi yana nambari za SIRET karibu na majina ya wafanyakazi. CNIL inaitendea SIRET pamoja na jina kama data ya kibinafsi. Jozi hiyo inasababisha kanuni za GDPR hata bila sehemu tofauti ya data ya kibinafsi.
Hatua Sita za Usimbaji Fiche kwa Mafunzo ya AI
Mwongozo wa AI wa CNIL wa 2024 unashughulikia aina sita za data. Kila moja lazima ishughulikiwe kabla ya kutumia rekodi za kibinafsi za Kifaransa katika mafunzo ya AI:
- Ondoa vitambulisho vya moja kwa moja -- Majina, NIR, SIREN lazima vibadilishwe au viondolewe
- Jumlisha vitambulisho vya karibu -- Umri, idara, kazi vinaweza kuungana kutambua watu upya; punguza usahihi wao
- Ongeza kelele kwa nambari -- Sehemu za nambari zinahitaji kelele iliyopangwa kuzuia makisio
- Angalia k-anonymity -- Kila mtu lazima aonekane kama watu wengine k-1 angalau; CNIL inaelekeza k >= 5
- Angalia l-diversity -- Sifa nyeti lazima zitofautiane ndani ya kila kikundi
- Endesha ukaguzi wa hatari ya utambuzi upya -- Tumia mbinu iliyorekodiwa kabla ya kutolewa kwa data yoyote
Kuondoa NIR na jina kamili peke yake haitoshi. CNIL imegundua hili katika utekelezaji. Vitambulisho vya karibu kama msimbo wa ZIP na utaalamu wa matibabu pia vinahitaji matibabu.
Mwongozo wetu wa uzingatiaji wa GDPR unashughulikia rekodi ambazo ukaguzi wa DPA wa Kifaransa unatarajia kuona.
Muktadha wa Lugha kwa Utambuzi wa PII ya Kifaransa
Ufaransa ina muktadha kadhaa wa kiisimu unaoathiri utambuzi.
Kifaransa cha kawaida ndiyo lugha ya hati zote rasmi. Mifano ya NER lazima ishughulikie herufi zenye alama: e, e, e, e, a, a, i, o, u, c, oe.
Maeneo ya ng'ambo (DOM-TOM): Martinique, Guadeloupe, Reunion, Guyane, na Mayotte zinatumia nambari za NIR katika safu ya 97-98. Mifumo ya majina ya ndani inatofautiana na Ufaransa Bara.
Alsace-Moselle: Majina yanayotoka Ujerumani na baadhi ya muundo wa hati za Kijerumani vinaonekana katika rekodi za Kifaransa. Mifano iliyofunzwa kwenye Kifaransa cha kawaida tu inaweza kukosa hivi.
Matumizi ya mpakani: Kifaransa cha Ubelgiji kinatumia muundo tofauti wa kitambulisho. Zana zinazotumika Ufaransa na Ubelgiji zinahitaji kanuni za kila mmoja.
Zana Yako Lazima Ishughulikie Nini
Uzingatiaji wa Kifaransa unahitaji uwezo wa kiufundi manne:
- NIR yenye ukaguzi wa mod-97 -- Kulinganisha mifumo peke yake kunashindwa. Zana lazima ziendeshe ukaguzi wa ufunguo na zishughulikie nambari za 2A/2B.
- SIREN/SIRET yenye ukaguzi wa Luhn -- Vitambulisho vya biashara vinaonekana katika faili za kibinafsi na kuunda mchanganyiko wa data ya kibinafsi unaofunikwa na GDPR.
- NER ya Kifaransa yenye msaada kamili wa alama -- Lazima ishughulikie majina yaliyounganishwa (Jean-Pierre), vipande (de, du, des), na herufi zenye alama.
- Mchakato wa hatua sita ulioandikwa -- Mstari wowote wa usindikaji wa mafunzo ya AI kwenye data ya Kifaransa unahitaji kumbukumbu iliyoandikwa kwa kila shughuli ya usimbaji fiche.