Dades ML Conformes a GDPR: Anonimitzar 10.000 registres sense escriure codi
Tots els equips de ciència de dades que treballen amb dades sotmeses a GDPR han escrit alguna versió d'aquest script:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}', '[EMAIL]', text)
Això no és conformitat GDPR. El conjunt de dades encara conté noms, números de telèfon, IDs de registres mèdics i altres categories d'informació personal que causaran falles.