Un sol script no es suficient
Tots els equips de ciencia de dades han escrit alguna cosa com aixo:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
Aixo substitueix les adreces de correu electronic. Nomes aixo. El conjunt de dades encara conte noms, numeros de telefon i identificadors medics. Seguira fallant una auditoria GDPR.
La diferencia entre "he anonimitzat els correus" i "aquest conjunt de dades compleix el GDPR" es gran. Els equips la subestimen contínuament.
Per que el GDPR limita l'us en l'entrenament ML
L'article 5(1)(b) del GDPR es la norma clau. S'anomena principi de limitacio de finalitat. Les dades personals nomes es poden utilitzar per a la finalitat per a la qual es van recollir.
Les comandes de clients es van recollir per al compliment de comandes. No per entrenar un model de recomanacio. Els historials de salut es van recollir per al tractament. No per entrenar un model de reingres. Les respostes d'enquestes es van recollir per obtenir comentaris sobre productes. No per entrenar un classificador de sentiment.
Per utilitzar aquests registres per a l'entrenament ML, un equip necessita una de tres coses:
- Consentiment explicit de cada persona per a la finalitat ML - difícil d'obtenir, sovint impossible retroactivament
- Una avaluacio d'interes llegítim que demostri que l'us ML es compatible - legalment incert, dependent de l'APD
- Anonimitzacio - substituir o eliminar detalls personals perque el conjunt de dades deixi de ser personal segons el GDPR
L'anonimitzacio adequada dona la major certesa legal. El repte es fer-ho be cada vegada.
El problema dels scripts puntuals
Els equips que escriuen un nou script Python per a cada conjunt de dades creen problemes acumulats.
Cobertura incompleta. Un script construit per a un esquema concret passa per alt nous camps. Una columna de notes clíniques afegida fa sis mesos? No esta al regex. Un camp de segon nom? El script nomes gestiona patrons de nom i cognom.
Sense consistencia. El conjunt A es va processar amb script_v1. El conjunt B va usar script_v3. El conjunt C el va processar un altre membre de l'equip. El conjunt d'entrenament combinat te tres metodes diferents aplicats. Un DPO no el pot certificar.
Sense rastre d'auditoria. El script va funcionar. Que va canviar? Quines entitats es van trobar? Sense registres de processament, el compliment es impossible. Quan un auditor de l'APD pregunta "com sabeu que aquest conjunt d'entrenament esta net?", la resposta "hem executat un script Python" no es suficient.
Deriva del model. Els patrons regex que funcionaven el 2023 passen per alt nous formats d'identificadors de 2024. Els scripts no s'actualitzen sols.
Una guia de processament per lots
Un equip d'IA sanitaria necessita anonimitzar 8.000 historials de pacients. L'equip dels EUA necessita acces des d'una oficina de la UE. S'aplica Schrems II: els registres d'origen europeu no es poden transferir a infraestructura dels EUA sense les mesures adequades.
Via tradicional: Un enginyer de dades escriu un script personalitzat. De dos a tres dies de desenvolupament. Un o dos dies de revisio del DPO. Un dia d'iteracio. Total: quatre a sis dies. El projecte ML s'endarrereix.
Via de processament per lots:
- Exportar els 8.000 registres com a CSV
- Carregar al processament per lots
- Establir tipus d'entitat: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
- Triar metode: Replace (substitueix per valors sinteticament realistes per preservar l'estructura)
- Processar: 45 minuts per a 8.000 registres
- Descarregar el CSV net
- El DPO revisa les metadades de processament - entitats trobades per registre, metodes aplicats: 2 hores
- El DPO aprova. La transferencia es realitza.
Temps total: 45 minuts mes 2 hores de revisio del DPO. En lloc de quatre a sis dies.
Consulteu la guia d'entrenament de la Llei d'IA de la UE per saber com aquests mateixos passos satisfan les obligacions de l'article 10.
Replace vs. Redact per a l'us en ML
El metode d'anonimitzacio importa per a la qualitat del model.
Redact substitueix el PIE per un token com [REDACTED]. Aixo funciona per a models de deteccio de PIE. Per a altres tasques - sentiment, classificacio, recomanacio - perjudica. El model apren que [REDACTED] es un token especial. No pot aprendre de la distribucio natural de noms i valors.
Replace canvia "Joan Garcia" per "David Chen". Canvia "jgarcia@empresa.com" per "dchen@synthetic.com". L'estructura es manté intacta. La posicio de les entitats, els patrons de co-ocurrencia, el flux de les frases - tot preservat. El model apren a partir d'un context realista.
Per als conjunts d'entrenament ML, Replace es l'opcio correcta. El model no apren els valors falsos. Apren els patrons al seu voltant. Aixo es el que importa.
Schrems II i les transferencies transfrontereres
La sentencia Schrems II (TJUE, 2020) va invalidar el Privacy Shield UE-EUA. Els registres d'origen europeu no es poden transferir a infraestructura ML dels EUA - AWS US-East, GCP US-Central - sense les mesures adequades.
Les tres mesures principals son:
- Clausules contractuals tipus amb una Avaluacio de l'Impacte de la Transferencia
- Normes corporatives vinculants per a transferencies dins d'un grup d'empreses
- Derogacio per a registres anonimitzats - els fitxers correctament anonimitzats ja no son personals sota el GDPR i estan exempts de les normes de transferencia
Per als equips que utilitzen infraestructura dels EUA amb conjunts d'origen europeu, l'anonimitzacio adequada elimina el problema de Schrems II. El conjunt net no es personal. Es pot moure lliurement.
Aquest es un dels avantatges practics mes forts de l'anonimitzacio per lots. Fa mes que satisfer el GDPR. Elimina completament la friccio transfronterera.
Per a mes informacio sobre les restriccions de transferencia, consulteu la guia de limitacio de finalitat GDPR.
Que cal lliurar al DPO
En presentar un conjunt d'entrenament net per a l'aprovacio del DPO, incloeu-hi aquests cinc elements:
- Descripcio de la font. Quin era el conjunt de dades original? Quina era la finalitat de recollida? Quines categories personals contenia?
- Configuracio de l'anonimitzacio. Quins tipus d'entitat es van detectar i substituir? Quin metode es va aplicar?
- Metadades de processament. Recomptes d'entitats per registre, puntuacions de confianca, total de registres processats.
- Avaluacio del risc residual. Quina es la probabilitat que algun individu pugui ser reidentificat? Per a l'anonimitzacio amb el metode Replace amb mes de 285 tipus d'entitat en text estructurat, aquesta probabilitat es molt baixa.
- Us previst. Quin model s'entrenara? Quina es la finalitat de l'entrenament?
El processament per lots proporciona els elements 2 i 3 automaticament. Els elements 1, 4 i 5 provenen del cientific de dades.
Consulteu l'API de lots d'anonym.legal per saber com es retornen les metadades de processament amb cada treball.
El que guanyeu
Els conjunts ML conformes al GDPR son assolibles sense scripts personalitzats, sense retards de dies i sense perdre qualitat del model.
El metode Replace manté les propietats del llenguatge natural que importan per a l'entrenament PNL. Elimina els detalls personals que creen risc GDPR.
45 minuts de processament per lots es la diferencia entre una revisio de compliment endarrerida i una aprovacio directa del DPO.