anonym.legal
Terug naar BlogTechnisch

Reproduceerbare Privacy: Waarom ML-teams Configuratievoorkeuren Nodig Hebben, Niet Alleen Documentatie

De anonimisatie van ML-trainingsgegevens moet consistent en reproduceerbaar zijn. Als datawetenschappers A en B verschillende entiteitstypen toepassen, zijn de trainingsdatasets inconsistent. CNIL heeft in 2024 AI-bedrijven onderzocht wegens onjuist gebruik van trainingsgegevens. Voorkeuren zijn de technische oplossing.

March 12, 20266 min lezen
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Reproduceerbare Privacy: Waarom ML-teams Configuratievoorkeuren Nodig Hebben, Niet Alleen Documentatie

De DPO heeft het document voor de anonimisatieprocedure goedgekeurd. Het specificeert: verwijder namen, e-mails, telefoonnummers en geboortedatums uit trainingsdatasets met behulp van de Vervangmethode. Het document is 4 pagina's en staat in de compliance-wiki.

Twaalf datawetenschappers raadplegen het bij de projectstart. Ze configureren hun eigen versies van de anonimisatietool. Sommigen voegen nationale ID's toe. Sommigen omvatten IP-adressen. Sommigen gebruiken Redact in plaats van Vervangen. Drie maanden later zijn de trainingsdatasets inconsistent.

De CNIL (de Franse DPA) heeft in 2024 meerdere AI-bedrijven onderzocht wegens onjuist gebruik van persoonsgegevens in trainingsdatasets. De onderzoeken keken niet alleen naar de vraag of anonimisatie plaatsvond, maar ook hoe consistent deze werd toegepast.

Documentatie is noodzakelijk. Het is niet voldoende. De technische oplossing is de voorkeur.

Waarom ML-trainingsgegevens Specifieke Configuratie Vereisen

De anonimisatie van ML-trainingsgegevens heeft vereisten die algemene documentanonimisatie niet heeft:

Vervangen, niet Redact: Neurale taalmachines die zijn getraind op tekst waarin namen zijn vervangen door [REDACTED] tokens, leren dat [REDACTED] een speciale identificator is die voorkomt in naamposities. Dit creëert ongewenst modelgedrag. De Vervangmethode (het vervangen van "John Smith" door "David Chen") behoudt de statistische verdeling van namen in tekst terwijl de identificerende informatie wordt verwijderd. Het model leert van realistische naampositie verdelingen, niet van een maskertoken.

Consistentie in de dataset: Een trainingsdataset waarin 70% van de namen is vervangen en 30% [REDACTED] produceert een inconsistente trainingssignaal. Alle records moeten identiek worden verwerkt.

Consistente entiteitselectie: Als de trainingsdataset gezondheidsgegevens bevat, creëert het verwijderen van namen maar niet geboortedatums in sommige records inconsistentie. Alle 12 datawetenschappers moeten dezelfde set entiteitstypen verwijderen.

Geen over-anonimisatie: De Vervangmethode die te veel wordt toegepast — het verwijderen van data die slechts tijdstempels zijn, niet geboortedatums — vermindert de bruikbaarheid van de dataset zonder de naleving te verbeteren. De goedgekeurde voorkeur definieert precies welke datumentiteiten moeten worden verwijderd (geboortedatum, niet algemene tijdstempels).

Reproduceerbaarheid tussen runs: Als dezelfde dataset opnieuw moet worden verwerkt (bijvoorbeeld na het detecteren van een gemist entiteitstype), produceert herverwerking met dezelfde voorkeur consistente output. Ad-hoc configuraties zijn niet reproduceerbaar.

Het 12-Data-Wetenschapper Probleem

Een Europese fintech-bedrijf's ML-team gebruikt een trainingsdataset die is afgeleid van klantinteractielogs. De DPO heeft het verwerkingsdoel goedgekeurd (modeltraining voor fraudedetectie) met voorwaarden: alle klantnamen, e-mails, telefoonnummers en betalingsidentificatoren moeten worden vervangen met behulp van de Vervangmethode voordat enige modeltraining plaatsvindt.

Zonder voorkeuren:

  • Datawetenschapper 1 verwijdert namen, e-mails, telefoonnummers (sluit betalingsidentificatoren niet in)
  • Datawetenschapper 2 omvat betalingsidentificatoren maar gebruikt Redact in plaats van Vervangen
  • Datawetenschapper 3 volgt het proceduredocument exact
  • Datawetenschappers 4-12 variëren

Resultaat: 12 verschillend verwerkte versies van de trainingsdata. De samengevoegde dataset is gedeeltelijk niet-nalevingswaardig, gedeeltelijk over-geanonimiseerd, en statistisch inconsistent.

Met DPO-goedgekeurde voorkeur:

  • DPO creëert "ML Training — Fraud Detectie" voorkeur met exacte entiteitstypen en Vervangmethode
  • Voorkeur gedeeld met alle 12 datawetenschappers met instructies: "Gebruik deze voorkeur voor alle voorbereidingen van trainingsdata"
  • Voorkeur kan niet worden gewijzigd zonder DPO-review (configuratie-toegangscontrole)

Resultaat: Alle 12 datawetenschappers produceren identieke anonimisatie-output. De samengevoegde dataset is consistent. Jaarlijkse AI-nalevingsaudit slaagt zonder bevindingen.

Vorige jaar: 3 bevindingen gerelateerd aan inconsistente ML-trainingsgegevensanonimisatie. Post-voorkeur: 0 bevindingen.

GDPR AI Act Kruising

De EU AI Act (van kracht sinds augustus 2024) voegt nalevingsvereisten toe voor AI-systemen die persoonsgegevens gebruiken voor training. Hoog-risico AI-systemen moeten hun trainingsgegevens documenteren, inclusief toegepaste anonimiseringsmaatregelen.

Het doelbeperkingsprincipe van de GDPR (Artikel 5(1)(b)) beperkt het gebruik van persoonsgegevens voor ML-training zonder specifieke juridische basis. De handhavingsacties van de CNIL in 2024 tegen AI-bedrijven waren gericht op deze kruising: persoonsgegevens die zijn verzameld voor de levering van diensten die worden gebruikt voor training zonder adequate juridische basis of anonimisatie.

De documentatievereisten van zowel de GDPR als de AI Act zijn gemakkelijker te vervullen wanneer het anonimisatieproces van trainingsgegevens technisch wordt afgedwongen via voorkeuren:

  • Voorkeursnaam en configuratie: de gedocumenteerde anonimiseringsmethodologie
  • Verwerkingslogs: bewijs dat de methodologie is toegepast op specifieke datasets
  • DPO-goedkeuring: geregistreerde beslissing die de voorkeurconfiguratie autoriseert

Dit creëert het auditspoor dat beide regelgevingen vereisen.

Voorkeursconfiguratie voor ML-trainingsgegevens

Entiteitstypen voor de meeste NLP-trainingsgegevens:

  • PERSON (namen — Vervangen door vergelijkbare namen)
  • EMAIL_ADDRESS (Vervangen door synthetische e-mails)
  • PHONE_NUMBER (Vervangen door synthetische telefoonnummers)
  • CREDIT_CARD / IBAN (Vervangen of Redact — betalingsgegevens)
  • LOCATION (Vervangen door vergelijkbare locaties als geo nodig is voor model; Redact als dat niet het geval is)
  • DATE_OF_BIRTH (Redact — leeftijdsgeneralizatie vaak nodig)

Entiteitstypen die doorgaans NIET zijn opgenomen voor NLP-trainingsgegevens:

  • Algemene datums (niet geboortedatum) — tijdstempels en datums in tekst zijn vaak nodig voor temporele modellering
  • Organisatienamen — vaak nodig voor entiteitsherkenningstraining
  • URLs — vaak nodig voor koppeling en referentie-extractie

De ML-leider en DPO definiëren deze onderscheidingen in de goedgekeurde voorkeur. Individuele datawetenschappers nemen deze beslissingen niet — zij passen de voorkeur toe.

Institutionele Kennis en Voorkeursversies

Voorkeuren dienen een functie voor institutionele geheugen:

Voor voorkeuren: De juiste entiteitsconfiguratie voor ML-trainingsgegevens leefde in de hoofden van de drie datawetenschappers die het compliance-reviewproces hadden doorlopen. Toen twee van hen in Q3 vertrokken, ging de institutionele kennis verloren.

Na voorkeuren: De configuratie is gecodeerd in "ML Training — Klantgegevens v2.1". De versiegeschiedenis toont wanneer het is gemaakt, wie het heeft goedgekeurd, en wat er is veranderd tussen v2.0 en v2.1. Nieuwe datawetenschappers gebruiken de voorkeur en erven de institutionele kennis die erin is ingebed.

Versie 2.1 voegde IBAN-detectie toe nadat een compliance-review had aangetoond dat het ontbrak. Versie 2.0-registraties tonen aan dat het in februari 2025 is goedgekeurd. Het auditspoor is compleet.

Conclusie

Documentatie vertelt teamleden wat te doen. Voorkeuren maken het technisch eenvoudig — en technisch afdwingbaar — om het consistent te doen.

Voor ML-trainingsgegevens specifiek is consistentie zowel een nalevingsvereiste (GDPR, AI Act) als een technische vereiste (modeltraining vereist consistente preprocessing). De voorkeur voldoet tegelijkertijd aan beide.

CNIL en andere DPA's die AI-trainingsgegevenspraktijken onderzoeken, zullen zoeken naar bewijs van systematische, consistente anonimisatie. Een voorkeur die uniform wordt toegepast op alle voorbereidingen van trainingsgegevens is het sterkste beschikbare bewijs.

Bronnen:

Klaar om uw gegevens te beschermen?

Begin met het anonimiseren van PII met 285+ entiteitstypen in 48 talen.