Privacitat Reproductible: Per Què els Equips de ML Necessiten Presets, No Només Documentació

El DPO ha aprovat el pla d'anonimització. Cobreix quatre elements: noms, correus electrònics, números de telèfon i dates de naixement. El mètode és Replace. El pla té quatre pàgines i viu a la wiki de compliment.

Dotze científics de dades el llegeixen en el kickoff. Cadascun configura l'eina pel seu compte. Alguns afegeixen identificadors nacionals. Alguns afegeixen adreces IP. Alguns canvien a Redact. Tres mesos després, els conjunts no són consistents.

La CNIL va inspeccionar diverses empreses d'IA el 2024. El problema: ús inadequat d'informació personal en conjunts de dades de models. No van preguntar només si s'havia aplicat l'anonimització. Van preguntar amb quina consistència s'havia aplicat.

La documentació és necessari. No és suficient. La solució és el preset.

Per Què els Conjunts de Dades de Modelsde ML Necessiten la Seva Pròpia Configuració

La construcció de conjunts de dades per a models té necessitats úniques. L'anonimització general de documents no les comparteix.

Replace, no Redact. Els models entrenats en text on els noms es converteixen en [REDACTED] aprenen aquest token com a marcador de posició de nom. Això perjudica el model. Replace canvia "John Smith" per "David Chen". El model veu patrons de noms reals. No veu un token de màscara.

El mateix procés per a tots els registres. Un conjunt de dades on el 70% dels noms són reemplaçats i el 30% són [REDACTED] emet senyals mixtes. Cada registre ha de passar pels mateixos passos.

La mateixa llista d'entitats. Si el conjunt de dades conté informació de salut, eliminar noms però deixar dates de naixement en alguns registres crea buits. Els dotze científics de dades han d'eliminar els mateixos tipus.

Sense sobreeliminar. Eliminar dates que són marques de temps -- no dates de naixement -- redueix la qualitat del conjunt de dades sense cap guany de compliment. El preset aprovat especifica exactament quins elements eliminar.

Sortida reproductible. Si cal tornar a executar un conjunt de dades -- per exemple, després de trobar un tipus d'entitat que havia passat per alt -- el preset dóna el mateix resultat cada vegada. Les configuracions ad hoc no.

El Problema dels Dotze Científics de Dades

Un equip europeu de ML fintech utilitza conjunts de dades de registres de clients. El DPO ha aprovat el propòsit -- detecció de frau -- amb una norma: tots els noms, correus electrònics, números de telèfon i identificadors de pagament dels clients han de ser reemplaçats abans que comencem el treball amb models.

Sense presets:

Persona 1 elimina noms, correus electrònics i números de telèfon, però oblida els identificadors de pagament
Persona 2 inclou els identificadors de pagament però utilitza Redact en lloc de Replace
Persona 3 segueix el document del pla exactament
Persones 4-12 varien

El conjunt de dades fusionat és parcialment no conforme i parcialment sobreprocessat. Un DPO no pot certificar-lo.

Amb un preset aprovat pel DPO:

El DPO crea "Desenvolupament ML -- Detecció de Frau" amb tipus d'entitats exactes i el mètode Replace
El preset va a les dotze persones amb una sola norma: utilitza'l per a tot el treball amb conjunts de dades
Ningú pot canviar el preset sense l'aprovació del DPO

Cada persona ara produeix el mateix resultat. El conjunt de dades fusionat és consistent. L'auditoria anual d'IA s'aprova amb zero constatacions. L'any anterior hi havia tres constatacions de treball inconsistent amb conjunts de dades.

RGPD i la Llei d'IA

Actualitzat per al 2026

La Llei d'IA de la UE va entrar en vigor completament a l'agost del 2024. Afegeix normes per als sistemes d'IA que utilitzen informació personal per al treball amb models. Els sistemes d'IA d'alt risc han de documentar els seus conjunts de dades, incloent-hi quina anonimització s'ha aplicat.

L'article 5(1)(b) del RGPD -- la norma de limitació de finalitat -- bloqueja l'ús d'informació personal sense una base legal clara. Els casos de la CNIL del 2024 es van centrar en aquest buit: informació recollida per a un servei utilitzada per al treball amb models sense base vàlida ni anonimització.

Els presets ajuden a complir tots dos conjunts de normes:

Nom i configuració del preset: el mètode documentat
Registres de processament: prova que el mètode s'ha aplicat
Aprovació del DPO: una aprovació registrada de la configuració

Això crea la pista d'auditoria que ambdues lleis requereixen. Per als detalls de les obligacions de l'article 10, consulteu la guia de dades d'entrenament de la Llei d'IA de la UE.

Configuració del Preset per a Conjunts de Dades NLP

Tipus a incloure en la majoria de conjunts de dades NLP:

PERSON -- Replace amb noms similars
EMAIL_ADDRESS -- Replace amb adreces sintètiques
PHONE_NUMBER -- Replace amb números sintètics
CREDIT_CARD / IBAN -- Replace o Redact
LOCATION -- Replace amb llocs similars si la localització importa; Redact si no
DATE_OF_BIRTH -- Redact; sovint cal l'agrupació per edats

Tipus sovint exclosos:

Dates generals -- les marques de temps ajuden els models temporals
Noms d'organització -- ajuden els models de reconeixement d'entitats nomenades
URLs -- ajuden els models d'enllaços i referències

El responsable de ML i el DPO estableixen aquestes normes en el preset aprovat. Els membres de l'equip l'apliquen. No prenen decisions de configuració.

Els Presets com a Memòria Institucional

Abans dels presets. La configuració correcta d'entitats vivia en els caps de tres científics de dades que havien treballat durant la revisió de compliment. Dos van marxar al T3. El coneixement va marxar amb ells.

Després dels presets. La configuració viu en "Desenvolupament ML -- Registres de Clients v2.1". El registre de versions mostra quan es va crear, qui l'ha aprovat i què va canviar de la v2.0. Les noves incorporacions utilitzen el preset i obtenen tot el coneixement integrat.

La versió 2.1 va afegir la detecció d'IBAN després que una revisió la troés absent. La versió 2.0 va ser aprovada el febrer del 2025. El registre és complet.

Per saber com funcionen els registres de processament i els fluxos de revisió del DPO, consulteu la guia d'anonimització de dades d'entrenament ML per al RGPD.

Presets vs. el Patró de la CNIL

Els casos d'IA de la CNIL del 2024 estableixen un patró clar. Pregunten no només què s'ha eliminat sinó com s'ha governat. Un preset compartit amb un registre d'aprovació del DPO i registres de processament respon a això directament.

Una configuració ad hoc no. El mateix buit existeix en altres casos d'APD de la UE que segueixen la lògica de la CNIL. Per saber més sobre l'enfocament d'IA de la CNIL, consulteu la guia de compliment d'IA RGPD de la CNIL.

Conclusió

La documentació explica als membres de l'equip què han de fer. Els presets ho fan fàcil -- i exigible -- de fer de la mateixa manera cada vegada.

Per als conjunts de dades de models ML, la consistència és tant una necessitat legal com tècnica. El preset satisfà tots dos alhora.

Les APD que examinen les pràctiques d'IA volen proves d'anonimització uniforme. Un preset aplicat de la mateixa manera en tot el treball amb conjunts de dades és la prova més clara que pots oferir.

Fonts

Articles Relacionats

Tècnic

Preparat per protegir les vostres dades?

Comenceu a anonimitzar PII amb més de 285 tipus d'entitats en 48 idiomes.

Comença Prova Gratuïta Veure Funcions

Privacitat Reproductible: Presets per a ML

Privacitat Reproductible: Per Què els Equips de ML Necessiten Presets, No Només Documentació

Per Què els Conjunts de Dades de Modelsde ML Necessiten la Seva Pròpia Configuració

El Problema dels Dotze Científics de Dades

RGPD i la Llei d'IA

Configuració del Preset per a Conjunts de Dades NLP

Els Presets com a Memòria Institucional

Presets vs. el Patró de la CNIL

Conclusió

Fonts

Articles Relacionats

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Preparat per protegir les vostres dades?

Privacitat Reproductible: Presets per a ML

Privacitat Reproductible: Per Què els Equips de ML Necessiten Presets, No Només Documentació

Per Què els Conjunts de Dades de Modelsde ML Necessiten la Seva Pròpia Configuració

El Problema dels Dotze Científics de Dades

RGPD i la Llei d'IA

Configuració del Preset per a Conjunts de Dades NLP

Els Presets com a Memòria Institucional

Presets vs. el Patró de la CNIL

Conclusió

Fonts

Articles Relacionats

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Preparat per protegir les vostres dades?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow