Pribatutasun Erreproduzgarria: Zergatik ML Taldeek Konfigurazioak Behar Dituzten, Dokumentuak Soilik Ez
DPOak anonimizazio-plana onartu du. Lau elementu biltzen ditu: izenak, posta elektronikoak, telefono-zenbakiak eta jaiotze-datak. Metodoa Ordezkapena da. Plana lau orrialdekoa da eta betetze-wikian bizi da.
Hamabi datu-zientzialarik hasierako bilkuran irakurri dute. Bakoitzak tresna bere kabuz konfiguratzen du. Batzuek nortasun nazionaleko IDak gehitzen dituzte. Batzuek IP helbideak gehitzen dituzte. Batzuek Berredakziora aldatzen dute. Hiru hilabete beranduago, multzoak ez dira koherenteak.
CNILek 2024an hainbat AI enpresa egiaztatu ditu. Arazoa: modelo-multzoetan informazio pertsonalaren erabilera ez-egokia. Ez dute soilik anonimizazioa gertatu den galdetzen. Zein neurritan uniformeki aplikatu den galdetzen dute.
Dokumentuak behar dira. Ez dira nahikoa. Konponbidea konfigurazioa da.
Zergatik ML Modelo-Multzoek Beren Konfigurazioa Behar Duten
Modelo-multzoak eraikitzeak behar bereziak ditu. Dokumentu-anonimizazio orokorrak ez ditu partekatzen.
Ordeztu, ez Berredakzioa. [BERREDAKZIO] bihurtu diren izenak dituzten testuan entrenatutako modeloek token hori izen-posizio gisa ikasten dute. Horrek modeloa kaltetzen du. Ordezkapena "John Smith" "David Chen" bihurtzen du. Modeloak benetako izen-ereduak ikusten ditu. Ez du maskarako token bat ikusten.
Erregistro guztientzako prozesu bera. Izenen % 70 ordezkatu eta % 30 [BERREDAKZIO] den multzoak seinale mistoa bidaltzen du. Erregistro bakoitzak urrats berdinak jasan behar ditu.
Entitate-zerrenda bera. Multzoak osasun-xehetasunak baditu, izenak kentzen baina jaiotze-datak zenbait erregistroetan uzten arrakala sortzen du. Hamabi datu-zientzialariek guztiek mota berdinak kendu behar dituzte.
Ez gehiegi kendu. Denbora-markak diren datak - jaiotze-datak ez - kentzen lagin-kalitatea murrizten du betetze-irabazi gabe. Onartutako konfigurazioak zehazki zein elementu kendu behar diren esaten du.
Irteera errepikagarria. Multzo bat berriz exekutatu behar bada - adibidez, galdutako entitate-mota aurkitu ondoren - konfigurazioak emaitza bera ematen du aldiro. Ad-hoc konfigurazioak ez.
Hamabi Datu-Zientzialarien Arazoa
Europa-ko fintech ML talde batek bezero-erregistroetatik datorren multzoak erabiltzen ditu. DPOak helburua onartu du - iruzur-detekzioa - arau batekin: bezero guztien izenak, posta elektronikoak, telefono-zenbakiak eta ordainketa-IDak ordezkatu behar dira modelo-lana hasi aurretik.
Konfigurazio gabe:
-
- pertsonak izenak, posta elektronikoak eta telefono-zenbakiak kentzen ditu - baina ordainketa-IDak galtzen ditu
-
- pertsonak ordainketa-IDak biltzen ditu baina Berredakzioa erabiltzen du, Ordezkapena ez
-
- pertsonak plan-dokumentua zehazki jarraitzen du
- 4-12. pertsonek aldatu egiten dute
Batutako multzoa partez ez-bateragarria eta partez gehiegi prozesatuta dago. DPO batek ezin du ziurtatu.
DPOak onartutako konfigurazioarekin:
- DPOak "ML Garapena - Iruzur Detekzioa" sortzen du entitate-mota zehatzekin eta Ordezkapena metodoarekin
- Konfigurazioa hamabi pertsonei bidaltzen zaie arau batekin: erabili hau multzo-lan guztirako
- Inork ezin du konfigurazioa DPOaren onarpenik gabe aldatu
Pertsona bakoitzak orain irteera bera sortzen du. Batutako multzoa koherentea da. Urteko AI ikasketa zero aurkikuntzarekin gainditzen da. Aurreko urteak hiru aurkikuntza izan zituen multzo-lanerako konfigurazio ez-koherenteagatik.
GDPR eta AI Legea
2026rako eguneratua
EBko AI Legea 2024ko abuztuan indarrean sartu zen osotasunean. Arau berriak gehitzen ditu modelo-lanerako informazio pertsonala erabiltzen duten AI sistementzat. Arrisku handiko AI sistemek beren multzoak dokumentatu behar dituzte, zer anonimizazio aplikatu zen barne.
GDPR 5(1)(b) Artikulua - helburu-muga araua - datu pertsonalak legezko oinarririk gabe erabiltzea galarazten du. CNILren 2024ko kasuek hutsune honetan zentratu ziren: zerbitzu batentzat bildutako datuak modelo-lanerako erabiltzen ziren oinarri baliozkorik edo anonimizaziorik gabe.
Konfigurazioak bi arau-multzo betetzen laguntzen dute:
- Konfigurazio-izena eta konfigurazioa: dokumentatutako metodoa
- Prozesatze-erregistroak: metodoa aplikatu dela frogatu
- DPOaren onarpena: konfigurazioaren erregistratutako onarpena
Honek bi legeek eskatzen duten auditoria-ibilbidea sortzen du. Article 10 betebeharrak xehetasunez jakiteko, ikusi EU AI Lege entrenamendu-datu gida.
NLP Modelo-Multzoetarako Konfigurazioa
NLP modelo-multzo gehienetan sartu beharreko motak:
- PERTSONA - Antzeko izenekin ordezkatu
- POSTA_ELEKTRONIKO_HELBIDEA - Helbide sintetikoetan ordezkatu
- TELEFONO_ZENBAKIA - Zenbaki sintetikoetan ordezkatu
- KREDITU_TXARTELA / IBAN - Ordezkatu edo Berredakzioa
- KOKAPENA - Antzeko lekuetan ordezkatu kokapena garrantzitsua bada; Berredakzioa ez bada
- JAIOTZE_DATA - Berredakzioa; adin-taldekatzea sarritan beharrezkoa da
Sarritan kanpo utzitako motak:
- Data orokorrak - denbora-markek eredu tenporalei laguntzen diete
- Erakunde-izenak - entitate izendatutako ereduei laguntzen diete
- URLak - esteka eta erreferentzia-ereduei laguntzen diete
ML buruak eta DPOak arau hauek onartutako konfigurazioan ezartzen dituzte. Taldekideek aplikatu egiten dute. Konfigurazio-aukerarik ez dute egiten.
Konfigurazioak Erakunde-Memoria Gisa
Konfigurazio aurretik. Entitate-konfigurazio egokia hiru datu-zientzialaren buruan bizi zen. Haiek betetze-berrikuspenetik igaro ziren. Biek Q3an utzi zuten. Ezagutza beraietan joan zen.
Konfigurazio ondoren. Konfigurazioa "ML Garapena - Bezero Erregistroak v2.1" artxiboan bizi da. Bertsio-erregistroak noiz sortu zen, nork onartu zuen eta v2.0tik zer aldatu zen erakusten du. Taldekide berriek konfigurazioa erabiltzen dute eta bertan integratutako ezagutza guztia jasotzen dute.
2.1 bertsioak IBAN detekzioa gehitu zuen berrikuspenak falta zela aurkitu ondoren. 2.0 bertsioa 2025eko otsailean onartu zen. Erregistroa osoa da.
Prozesatze-erregistroek eta DPO berrikuspena nola funtzionatzen duten jakiteko, ikusi GDPR ML entrenamendu-anonimizazio gida.
Konfigurazioak eta CNIL Eredua
CNILen 2024ko AI kasuek eredu argi bat ezarri dute. Zer kendu den soilik galdetzen dute eta nola gobernatua izan zen. DPOaren onarpena eta prozesatze-erregistroak dituen partekatutako konfigurazio batek zuzenean erantzuten dio honi.
Ad-hoc konfigurazio batek ez. Hutsune bera existitzen da CNIL logika jarraitzen duten beste EU DPA kasuetan. CNILren AI hurbilketari buruz gehiago jakiteko, ikusi CNIL GDPR AI betetze gida.
Ondorioa
Dokumentuek taldekideei zer egin esaten diete. Konfigurazioak erraza egiten dute - eta betearazgarria - aldiro berdin egitea.
ML modelo-multzoetarako, koherentzia legezko eta tekniko beharra da aldi berean. Konfigurazioak biak betetzen ditu aldi berean.
AI praktikak aztertzen ari diren DPAek anonimizazio uniformearen ebidentzia nahi dute. Multzo-lan guztietan berdin-berdin aplikatutako konfigurazio bat eman diezaiekeen froga argiena da.