Herhaalbare Privaatheid: Hoekom ML-spanne Voorkeurinstellings benodig, nie net Dokumente nie
Die DPO het die anonimiseringsplan goedgekeur. Dit dek vier items: name, e-posadresse, telefoonnommers en geboortedatums. Die metode is Vervang. Die plan is vier bladsye en woon in die voldoeningswiki.
Twaalf datawetenskap-lede lees dit by aanvangs. Elkeen stel die nutsmiddel self op. Sommige voeg nasionale ID's by. Sommige voeg IP-adresse by. Sommige skakel oor na Redigeer. Drie maande later is die stelle nie konsekwent nie.
Die CNIL het verskeie KI-firmas in 2024 nagegaan. Die kwessie: onbehoorlike gebruik van persoonlike besonderhede in modelstelle. Hulle het nie net gevra of anonimisering plaasgevind het nie. Hulle het gevra hoe konsekwent dit toegepas is.
Dokumente is nodig. Hulle is nie genoeg nie. Die oplossing is die voorkeurinstelling.
Hoekom ML-modelstelle hul eie konfigurasie benodig
Die bou van modelstelle het unieke behoeftes. Algemene dokumentanonimisering deel dit nie.
Vervang, nie Redigeer nie. Modelle wat opgelei is op teks waar name [GEREDIGEERD] word, leer die token as 'n naam-posisie-merker. Dit benadeel die model. Vervang swaai "John Smith" vir "David Chen." Die model sien werklike naampatrone. Dit sien nie 'n maskertoken nie.
Dieselfde proses vir alle rekords. 'n Stel waar 70% van name vervang is en 30% [GEREDIGEERD] is, stuur gemengde sein. Elke rekord moet deur dieselfde stappe gaan.
Dieselfde entiteitslys. As die stel gesondheidsbesonderhede bevat, die verwydering van name maar die hou van geboortedatums in sommige rekords skep leemtes. Alle twaalf datawetenskap-lede moet dieselfde tipes verwyder.
Geen oordadige verwydering nie. Die uitneem van datums wat tydstempels is - nie geboortedatums nie - verminder stelkwaliteit sonder voldoeningsvoordeel. Die goedgekeurde voorkeurinstelling se presies watter items om te verwyder.
Herhaalbare uitvoer. As 'n stel weer gestoot moet word - se nou, na 'n gemiste entiteitstipe gevind is - gee die voorkeurinstelling dieselfde resultaat elke keer. Ad hoc-konfigs doen dit nie.
Die Twaalf Datawetenskappe Probleem
'n Fintech ML-span in Europa gebruik stelle van klientelogs. Die DPO het die doel goedgekeur - bedrogopsporing - met een reel: alle klientename, e-posadresse, telefoonnommers en betalings-ID's moet vervang word voordat modelwerk begin.
Sonder voorkeurinstellings:
- Persoon 1 verwyder name, e-posadresse en telefoonnommers - maar mis betalings-ID's
- Persoon 2 sluit betalings-ID's in maar gebruik Redigeer, nie Vervang nie
- Persoon 3 volg die plandokument presies
- Persone 4-12 verskil
Die saamgevoegde stel is gedeeltelik nie-voldoenend en gedeeltelik oorbewerkend. 'n DPO kan dit nie sertifiseer nie.
Met 'n DPO-goedgekeurde voorkeurinstelling:
- Die DPO skep "ML Ontwikkeling - Bedrogopsporing" met presiese entiteitstipes en die Vervang-metode
- Die voorkeurinstelling gaan na alle twaalf mense met een reel: gebruik dit vir alle stelwerk
- Niemand kan die voorkeurinstelling verander sonder DPO-goedkeuring nie
Elke persoon produseer nou dieselfde uitvoer. Die saamgevoegde stel is konsekwent. Die jaarlikse KI-oudit slaag met nul bevindinge. Die vorige jaar had drie bevindinge van inkonsekwente stelwerk.
GDPR en die KI-wet
Opgedateer vir 2026
Die EU KI-wet het in Augustus 2024 ten volle in werking getree. Dit voeg reels by vir KI-stelsels wat persoonlike besonderhede vir modelwerk gebruik. Hoerisikokoue KI-stelsels moet hul stelle dokumenteer, insluitend watter anonimisering toegepas is.
GDPR Artikel 5(1)(b) - die doelbegrensingsreel - blokkeer die gebruik van persoonlike besonderhede sonder 'n duidelike regsbasis. Die CNIL se 2024-sake het op hierdie gaping gefokus: besonderhede versamel vir een diens wat vir modelwerk gebruik word sonder 'n geldige grondslag of anonimisering.
Voorkeurinstellings help om albei stelle reels te bevredig:
- Voorkeurinstelling-naam en -konfigurasie: die gedokumenteerde metode
- Verwerkingslogs: bewys dat die metode toegepas is
- DPO-goedkeuring: 'n opgetekende aftekening op die konfigurasie
Dit skep die ouditspoor wat albei wette vereis. Vir Artikel 10-verpligtinge in detail, sien die EU KI-wet opleidingsdatagids.
Voorkeurinstelling-konfigurasie vir NLP-modelstelle
Tipes om in te sluit in die meeste NLP-modelstelle:
- PERSOON - Vervang met soortgelyke name
- E_POS_ADRES - Vervang met sintetiese adresse
- TELEFOONNOMMER - Vervang met sintetiese nommers
- KREDIETKAART / IBAN - Vervang of Redigeer
- LIGGING - Vervang met soortgelyke plekke as ligging saak maak; Redigeer as nie
- GEBOORTEDATUM - Redigeer; ouderdomsgroepering word dikwels benodig
Tipes wat dikwels uitgelaat word:
- Algemene datums - tydstempels help temporale modelle
- Organisasienaam - help benoemde-entiteitmodelle
- URL's - help skakel- en verwysingsmodelle
Die ML-hoof en DPO stel hierdie reels in die goedgekeurde voorkeurinstelling. Spanlede pas dit toe. Hulle maak nie konfigurasie-keuses nie.
Voorkeurinstellings as institusionele geheue
Voor voorkeurinstellings. Die regte entiteitkonfigurasie het in die hoofde van drie datawetenskap-lede gewoon. Hulle had deur die voldoeningshersiening gewerk. Twee het in K3 vertrek. Die kennis het saamgegaan.
Na voorkeurinstellings. Die konfigurasie woon in "ML Ontwikkeling - Klientesurekords v2.1." Die versie-log wys wanneer dit geskep is, wie dit goedgekeur het en wat verander het van v2.0. Nuwe spanlede gebruik die voorkeurinstelling en kry alle kennis wat daarin gebou is.
Weergawe 2.1 het IBAN-opsporing bygevoeg nadat 'n hersiening dit as vermis gevind het. Weergawe 2.0 is in Februarie 2025 goedgekeur. Die log is volledig.
Vir hoe verwerkingslogs en DPO-hersieningsvloei werk, sien die GDPR ML-opleiding anonimiseringsgids.
Voorkeurinstellings vs. die CNIL-patroon
Die CNIL se 2024 KI-sake stel 'n duidelike patroon. Hulle vra nie net wat verwyder is nie maar hoe dit bestuur is. 'n Gedeelde voorkeurinstelling met 'n DPO-goedkeuringsrekord en verwerkingslogs beantwoord dit direk.
'n Ad hoc-konfigurasie doen dit nie. Dieselfde gaping bestaan in ander EU DPA-sake wat CNIL-logika volg. Vir meer oor die CNIL KI-benadering, sien die CNIL GDPR KI-voldoeningsgids.
Gevolgtrekking
Dokumente vertel spanlede wat om te doen. Voorkeurinstellings maak dit maklik - en afdwingbaar - om dit elke keer op dieselfde manier te doen.
Vir ML-modelstelle is konsekwentheid beide 'n regsbehoefte en 'n tegniese een. Die voorkeurinstelling voldoen aan albei tegelyk.
DPA's wat na KI-praktyke kyk, wil bewyse van uniforme anonimisering he. 'n Voorkeurinstelling wat dieselfde manier oor alle stelwerk toegepas word, is die duidelikste bewys wat u hulle kan gee.