Reproduceerbare privacy: waarom ML-teams presets nodig hebben, niet alleen documenten
De DPO keurde het anonimiseringsplan goed. Het omvat vier items: namen, e-mails, telefoonnummers en geboortedatums. De methode is Vervangen. Het plan is vier pagina's en staat in de compliance-wiki.
Twaalf datawetenschappers lezen het bij de kickoff. Elke stelt de tool op zijn eigen manier in. Sommigen voegen nationale ID's toe. Sommigen voegen IP-adressen toe. Sommigen schakelen over naar Redigeren. Drie maanden later zijn de datasets niet consistent.
De CNIL controleerde meerdere AI-bedrijven in 2024. Ze vonden inconsistente anonimiseringstoepassingen in ML-trainingsdatasets. De bevinding: de anonimisering voldeed niet aan de GDPR-vereisten.
Waarom inconsistentie ML-naleving breekt
Voor ML-trainingsdata creëert inconsistentie twee problemen:
Complianceprobleem: Als datawetenschapper A namen verwijdert en datawetenschapper B dat niet doet, zijn sommige trainingsrecords niet-compliant. De dataset als geheel is niet-compliant. Een audit over de dataset vindt de inconsistentie.
Kwaliteitsprobleem: Een model dat is getraind op inconsistent geanonimiseerde data kan patronen leren die correleren met privé-informatie in de niet-volledig-geanonimiseerde records.
Presets voor ML-pijplijnen
API-gebaseerde presets:
from anonym_legal import AnonymClient
client = AnonymClient(api_key="...")
# Gebruik een opgeslagen preset voor consistentie
result = client.anonymize(
text=record,
preset="ml-training-gdpr-v2" # DPO-goedgekeurde preset
)
Elke datawetenschapper die dezelfde preset-naam gebruikt, past exact dezelfde entiteitstypen en methode toe. Geen afwijking mogelijk.
Presetversioning:
Presets hebben versienummers. Wanneer de DPO de preset bijwerkt (bijv. IP-adressen toevoegen), krijgt het een nieuwe versie. Auditlogboeken registreren welke presetversie werd gebruikt voor elke verwerkingssessie. Als een dataset later wordt betwist, kunt u precies reconstrueren welke anonimiseringsregels werden toegepast.
DPIA-documentatie voor ML
De DPIA voor ML-trainingsdata moet documenteren:
- Entiteitstypen geanonimiseerd
- Anonimiseringsmethode (vervangen, redigeren, generaliseren)
- Consistentie-aanpak (presets, niet ad-hoc)
- Audittrail van verwerkingssessies
Anonym.legal's preset-systeem en auditlogboeken leveren alle vier direct.