Herhaalbare Privaatheid: Hoekom ML-spanne Voorkeurinstellings benodig, nie net Dokumente nie

Die DPO het die anonimiseringsplan goedgekeur. Dit dek vier items: name, e-posadresse, telefoonnommers en geboortedatums. Die metode is Vervang. Die plan is vier bladsye en woon in die voldoeningswiki.

Twaalf datawetenskap-lede lees dit by aanvangs. Elkeen stel die nutsmiddel self op. Sommige voeg nasionale ID's by. Sommige voeg IP-adresse by. Sommige skakel oor na Redigeer. Drie maande later is die stelle nie konsekwent nie.

Die CNIL het verskeie KI-firmas in 2024 nagegaan. Die kwessie: onbehoorlike gebruik van persoonlike besonderhede in modelstelle. Hulle het nie net gevra of anonimisering plaasgevind het nie. Hulle het gevra hoe konsekwent dit toegepas is.

Dokumente is nodig. Hulle is nie genoeg nie. Die oplossing is die voorkeurinstelling.

Hoekom ML-modelstelle hul eie konfigurasie benodig

Die bou van modelstelle het unieke behoeftes. Algemene dokumentanonimisering deel dit nie.

Vervang, nie Redigeer nie. Modelle wat opgelei is op teks waar name [GEREDIGEERD] word, leer die token as 'n naam-posisie-merker. Dit benadeel die model. Vervang swaai "John Smith" vir "David Chen." Die model sien werklike naampatrone. Dit sien nie 'n maskertoken nie.

Dieselfde proses vir alle rekords. 'n Stel waar 70% van name vervang is en 30% [GEREDIGEERD] is, stuur gemengde sein. Elke rekord moet deur dieselfde stappe gaan.

Dieselfde entiteitslys. As die stel gesondheidsbesonderhede bevat, die verwydering van name maar die hou van geboortedatums in sommige rekords skep leemtes. Alle twaalf datawetenskap-lede moet dieselfde tipes verwyder.

Geen oordadige verwydering nie. Die uitneem van datums wat tydstempels is - nie geboortedatums nie - verminder stelkwaliteit sonder voldoeningsvoordeel. Die goedgekeurde voorkeurinstelling se presies watter items om te verwyder.

Herhaalbare uitvoer. As 'n stel weer gestoot moet word - se nou, na 'n gemiste entiteitstipe gevind is - gee die voorkeurinstelling dieselfde resultaat elke keer. Ad hoc-konfigs doen dit nie.

Die Twaalf Datawetenskappe Probleem

'n Fintech ML-span in Europa gebruik stelle van klientelogs. Die DPO het die doel goedgekeur - bedrogopsporing - met een reel: alle klientename, e-posadresse, telefoonnommers en betalings-ID's moet vervang word voordat modelwerk begin.

Sonder voorkeurinstellings:

Persoon 1 verwyder name, e-posadresse en telefoonnommers - maar mis betalings-ID's
Persoon 2 sluit betalings-ID's in maar gebruik Redigeer, nie Vervang nie
Persoon 3 volg die plandokument presies
Persone 4-12 verskil

Die saamgevoegde stel is gedeeltelik nie-voldoenend en gedeeltelik oorbewerkend. 'n DPO kan dit nie sertifiseer nie.

Met 'n DPO-goedgekeurde voorkeurinstelling:

Die DPO skep "ML Ontwikkeling - Bedrogopsporing" met presiese entiteitstipes en die Vervang-metode
Die voorkeurinstelling gaan na alle twaalf mense met een reel: gebruik dit vir alle stelwerk
Niemand kan die voorkeurinstelling verander sonder DPO-goedkeuring nie

Elke persoon produseer nou dieselfde uitvoer. Die saamgevoegde stel is konsekwent. Die jaarlikse KI-oudit slaag met nul bevindinge. Die vorige jaar had drie bevindinge van inkonsekwente stelwerk.

Opgedateer vir 2026

Die EU KI-wet het in Augustus 2024 ten volle in werking getree. Dit voeg reels by vir KI-stelsels wat persoonlike besonderhede vir modelwerk gebruik. Hoerisikokoue KI-stelsels moet hul stelle dokumenteer, insluitend watter anonimisering toegepas is.

GDPR Artikel 5(1)(b) - die doelbegrensingsreel - blokkeer die gebruik van persoonlike besonderhede sonder 'n duidelike regsbasis. Die CNIL se 2024-sake het op hierdie gaping gefokus: besonderhede versamel vir een diens wat vir modelwerk gebruik word sonder 'n geldige grondslag of anonimisering.

Voorkeurinstellings help om albei stelle reels te bevredig:

Voorkeurinstelling-naam en -konfigurasie: die gedokumenteerde metode
Verwerkingslogs: bewys dat die metode toegepas is
DPO-goedkeuring: 'n opgetekende aftekening op die konfigurasie

Dit skep die ouditspoor wat albei wette vereis. Vir Artikel 10-verpligtinge in detail, sien die EU KI-wet opleidingsdatagids.

Voorkeurinstelling-konfigurasie vir NLP-modelstelle

Tipes om in te sluit in die meeste NLP-modelstelle:

PERSOON - Vervang met soortgelyke name
E_POS_ADRES - Vervang met sintetiese adresse
TELEFOONNOMMER - Vervang met sintetiese nommers
KREDIETKAART / IBAN - Vervang of Redigeer
LIGGING - Vervang met soortgelyke plekke as ligging saak maak; Redigeer as nie
GEBOORTEDATUM - Redigeer; ouderdomsgroepering word dikwels benodig

Tipes wat dikwels uitgelaat word:

Algemene datums - tydstempels help temporale modelle
Organisasienaam - help benoemde-entiteitmodelle
URL's - help skakel- en verwysingsmodelle

Die ML-hoof en DPO stel hierdie reels in die goedgekeurde voorkeurinstelling. Spanlede pas dit toe. Hulle maak nie konfigurasie-keuses nie.

Voorkeurinstellings as institusionele geheue

Voor voorkeurinstellings. Die regte entiteitkonfigurasie het in die hoofde van drie datawetenskap-lede gewoon. Hulle had deur die voldoeningshersiening gewerk. Twee het in K3 vertrek. Die kennis het saamgegaan.

Na voorkeurinstellings. Die konfigurasie woon in "ML Ontwikkeling - Klientesurekords v2.1." Die versie-log wys wanneer dit geskep is, wie dit goedgekeur het en wat verander het van v2.0. Nuwe spanlede gebruik die voorkeurinstelling en kry alle kennis wat daarin gebou is.

Weergawe 2.1 het IBAN-opsporing bygevoeg nadat 'n hersiening dit as vermis gevind het. Weergawe 2.0 is in Februarie 2025 goedgekeur. Die log is volledig.

Vir hoe verwerkingslogs en DPO-hersieningsvloei werk, sien die GDPR ML-opleiding anonimiseringsgids.

Voorkeurinstellings vs. die CNIL-patroon

Die CNIL se 2024 KI-sake stel 'n duidelike patroon. Hulle vra nie net wat verwyder is nie maar hoe dit bestuur is. 'n Gedeelde voorkeurinstelling met 'n DPO-goedkeuringsrekord en verwerkingslogs beantwoord dit direk.

'n Ad hoc-konfigurasie doen dit nie. Dieselfde gaping bestaan in ander EU DPA-sake wat CNIL-logika volg. Vir meer oor die CNIL KI-benadering, sien die CNIL GDPR KI-voldoeningsgids.

Gevolgtrekking

Dokumente vertel spanlede wat om te doen. Voorkeurinstellings maak dit maklik - en afdwingbaar - om dit elke keer op dieselfde manier te doen.

Vir ML-modelstelle is konsekwentheid beide 'n regsbehoefte en 'n tegniese een. Die voorkeurinstelling voldoen aan albei tegelyk.

DPA's wat na KI-praktyke kyk, wil bewyse van uniforme anonimisering he. 'n Voorkeurinstelling wat dieselfde manier oor alle stelwerk toegepas word, is die duidelikste bewys wat u hulle kan gee.

Bronne

Verwante Artikels

Tegnies

Gereed om u data te beskerm?

Begin om PII te anonimiseer met 285+ entiteitstipes in 48 tale.

Begin Gratis Proeflopie Besoek Kenmerke

Herhaalbare privaatheid: ML-voorkeurinstellings

Herhaalbare Privaatheid: Hoekom ML-spanne Voorkeurinstellings benodig, nie net Dokumente nie

Hoekom ML-modelstelle hul eie konfigurasie benodig

Die Twaalf Datawetenskappe Probleem

Voorkeurinstelling-konfigurasie vir NLP-modelstelle

Voorkeurinstellings as institusionele geheue

Voorkeurinstellings vs. die CNIL-patroon

Gevolgtrekking

Bronne

Verwante Artikels

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Gereed om u data te beskerm?

Herhaalbare privaatheid: ML-voorkeurinstellings

Herhaalbare Privaatheid: Hoekom ML-spanne Voorkeurinstellings benodig, nie net Dokumente nie

Hoekom ML-modelstelle hul eie konfigurasie benodig

Die Twaalf Datawetenskappe Probleem

GDPR en die KI-wet

Voorkeurinstelling-konfigurasie vir NLP-modelstelle

Voorkeurinstellings as institusionele geheue

Voorkeurinstellings vs. die CNIL-patroon

Gevolgtrekking

Bronne

Verwante Artikels

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Gereed om u data te beskerm?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow