Privacitat Reproductible: Per Què els Equips de ML Necessiten Presets, No Només Documentació
El DPO ha aprovat el pla d'anonimització. Cobreix quatre elements: noms, correus electrònics, números de telèfon i dates de naixement. El mètode és Replace. El pla té quatre pàgines i viu a la wiki de compliment.
Dotze científics de dades el llegeixen en el kickoff. Cadascun configura l'eina pel seu compte. Alguns afegeixen identificadors nacionals. Alguns afegeixen adreces IP. Alguns canvien a Redact. Tres mesos després, els conjunts no són consistents.
La CNIL va inspeccionar diverses empreses d'IA el 2024. El problema: ús inadequat d'informació personal en conjunts de dades de models. No van preguntar només si s'havia aplicat l'anonimització. Van preguntar amb quina consistència s'havia aplicat.
La documentació és necessari. No és suficient. La solució és el preset.
Per Què els Conjunts de Dades de Modelsde ML Necessiten la Seva Pròpia Configuració
La construcció de conjunts de dades per a models té necessitats úniques. L'anonimització general de documents no les comparteix.
Replace, no Redact. Els models entrenats en text on els noms es converteixen en [REDACTED] aprenen aquest token com a marcador de posició de nom. Això perjudica el model. Replace canvia "John Smith" per "David Chen". El model veu patrons de noms reals. No veu un token de màscara.
El mateix procés per a tots els registres. Un conjunt de dades on el 70% dels noms són reemplaçats i el 30% són [REDACTED] emet senyals mixtes. Cada registre ha de passar pels mateixos passos.
La mateixa llista d'entitats. Si el conjunt de dades conté informació de salut, eliminar noms però deixar dates de naixement en alguns registres crea buits. Els dotze científics de dades han d'eliminar els mateixos tipus.
Sense sobreeliminar. Eliminar dates que són marques de temps -- no dates de naixement -- redueix la qualitat del conjunt de dades sense cap guany de compliment. El preset aprovat especifica exactament quins elements eliminar.
Sortida reproductible. Si cal tornar a executar un conjunt de dades -- per exemple, després de trobar un tipus d'entitat que havia passat per alt -- el preset dóna el mateix resultat cada vegada. Les configuracions ad hoc no.
El Problema dels Dotze Científics de Dades
Un equip europeu de ML fintech utilitza conjunts de dades de registres de clients. El DPO ha aprovat el propòsit -- detecció de frau -- amb una norma: tots els noms, correus electrònics, números de telèfon i identificadors de pagament dels clients han de ser reemplaçats abans que comencem el treball amb models.
Sense presets:
- Persona 1 elimina noms, correus electrònics i números de telèfon, però oblida els identificadors de pagament
- Persona 2 inclou els identificadors de pagament però utilitza Redact en lloc de Replace
- Persona 3 segueix el document del pla exactament
- Persones 4-12 varien
El conjunt de dades fusionat és parcialment no conforme i parcialment sobreprocessat. Un DPO no pot certificar-lo.
Amb un preset aprovat pel DPO:
- El DPO crea "Desenvolupament ML -- Detecció de Frau" amb tipus d'entitats exactes i el mètode Replace
- El preset va a les dotze persones amb una sola norma: utilitza'l per a tot el treball amb conjunts de dades
- Ningú pot canviar el preset sense l'aprovació del DPO
Cada persona ara produeix el mateix resultat. El conjunt de dades fusionat és consistent. L'auditoria anual d'IA s'aprova amb zero constatacions. L'any anterior hi havia tres constatacions de treball inconsistent amb conjunts de dades.
RGPD i la Llei d'IA
Actualitzat per al 2026
La Llei d'IA de la UE va entrar en vigor completament a l'agost del 2024. Afegeix normes per als sistemes d'IA que utilitzen informació personal per al treball amb models. Els sistemes d'IA d'alt risc han de documentar els seus conjunts de dades, incloent-hi quina anonimització s'ha aplicat.
L'article 5(1)(b) del RGPD -- la norma de limitació de finalitat -- bloqueja l'ús d'informació personal sense una base legal clara. Els casos de la CNIL del 2024 es van centrar en aquest buit: informació recollida per a un servei utilitzada per al treball amb models sense base vàlida ni anonimització.
Els presets ajuden a complir tots dos conjunts de normes:
- Nom i configuració del preset: el mètode documentat
- Registres de processament: prova que el mètode s'ha aplicat
- Aprovació del DPO: una aprovació registrada de la configuració
Això crea la pista d'auditoria que ambdues lleis requereixen. Per als detalls de les obligacions de l'article 10, consulteu la guia de dades d'entrenament de la Llei d'IA de la UE.
Configuració del Preset per a Conjunts de Dades NLP
Tipus a incloure en la majoria de conjunts de dades NLP:
- PERSON -- Replace amb noms similars
- EMAIL_ADDRESS -- Replace amb adreces sintètiques
- PHONE_NUMBER -- Replace amb números sintètics
- CREDIT_CARD / IBAN -- Replace o Redact
- LOCATION -- Replace amb llocs similars si la localització importa; Redact si no
- DATE_OF_BIRTH -- Redact; sovint cal l'agrupació per edats
Tipus sovint exclosos:
- Dates generals -- les marques de temps ajuden els models temporals
- Noms d'organització -- ajuden els models de reconeixement d'entitats nomenades
- URLs -- ajuden els models d'enllaços i referències
El responsable de ML i el DPO estableixen aquestes normes en el preset aprovat. Els membres de l'equip l'apliquen. No prenen decisions de configuració.
Els Presets com a Memòria Institucional
Abans dels presets. La configuració correcta d'entitats vivia en els caps de tres científics de dades que havien treballat durant la revisió de compliment. Dos van marxar al T3. El coneixement va marxar amb ells.
Després dels presets. La configuració viu en "Desenvolupament ML -- Registres de Clients v2.1". El registre de versions mostra quan es va crear, qui l'ha aprovat i què va canviar de la v2.0. Les noves incorporacions utilitzen el preset i obtenen tot el coneixement integrat.
La versió 2.1 va afegir la detecció d'IBAN després que una revisió la troés absent. La versió 2.0 va ser aprovada el febrer del 2025. El registre és complet.
Per saber com funcionen els registres de processament i els fluxos de revisió del DPO, consulteu la guia d'anonimització de dades d'entrenament ML per al RGPD.
Presets vs. el Patró de la CNIL
Els casos d'IA de la CNIL del 2024 estableixen un patró clar. Pregunten no només què s'ha eliminat sinó com s'ha governat. Un preset compartit amb un registre d'aprovació del DPO i registres de processament respon a això directament.
Una configuració ad hoc no. El mateix buit existeix en altres casos d'APD de la UE que segueixen la lògica de la CNIL. Per saber més sobre l'enfocament d'IA de la CNIL, consulteu la guia de compliment d'IA RGPD de la CNIL.
Conclusió
La documentació explica als membres de l'equip què han de fer. Els presets ho fan fàcil -- i exigible -- de fer de la mateixa manera cada vegada.
Per als conjunts de dades de models ML, la consistència és tant una necessitat legal com tècnica. El preset satisfà tots dos alhora.
Les APD que examinen les pràctiques d'IA volen proves d'anonimització uniforme. Un preset aplicat de la mateixa manera en tot el treball amb conjunts de dades és la prova més clara que pots oferir.