Reproduktibilna zasebnost: Zakaj ekipe ML potrebujejo prednastavitve, ne le dokumentacijo

Pooblascenec za varstvo podatkov (DPO) je odobril nacrt anonimizacije. Zajema stiri elemente: imena, e-postne naslove, telefonske stevilke in datume rojstva. Metoda je Zamenjava. Nacrt steje stiri strani in zivi v skladsiscu dokumentov skladnosti.

Dvanajst podatkovnih znanstvenikov ga prebere na zagonu. Vsak nastavi orodje sam. Nekateri dodajo nacionalne ID-je. Nekateri dodajo IP-naslove. Nekateri preklopijo na Redakt. Tri mesece pozneje nizi podatkov niso dosledni.

CNIL je leta 2024 preveril vec podjetij z UI. Tezava: nepravilna uporaba osebnih podatkov v modelnih naborih. Niso vprasali le, ali se je anonimizacija zgodila. Vprasali so, kako dosledno je bila uporabljena.

Dokumentacija je potrebna. Ni dovolj. Resitev je prednastavitev.

Zakaj modelni nabori ML potrebujejo lastno konfiguracijo

Gradnja modelnih naborov ima edinstvene zahteve. Splosna anonimizacija dokumentov jih ne deli.

Zamenjava, ne Redakt. Modeli, usposobljeni na besedilu, kjer so imena postala [REDACTED], se naucijo tega tokena kot oznacevala polozaja imen. To poskoduJe model. Zamenjava nadomesti "Janez Novak" z "David Chen". Model vidi realne vzorce imen. Ne vidi maskirnega tokena.

Enak postopek za vse evidence. Nabor, kjer je 70 % imen zamenjanih in 30 % je [REDACTED], poslje mesano sporocilo. Vsaka evidenca mora iti skozi enake korake.

Enak seznam entitet. Ce nabor vsebuje zdravstvene podatke, odstranitev imen, a pustitev datumov rojstva v nekaterih evidencah, ustvari vrzeli. Vseh dvanajst podatkovnih znanstvenikov mora odstraniti iste vrste.

Brez prek-odstranjevanja. Odstranjevanje datumov, ki so casovni znaki -- ne datumi rojstva -- zmanjsa kakovost nabora brez pridobitve skladnosti. Odobren preset natancno doloca, katere elemente je treba odstraniti.

Ponovljiv izhod. Ce je treba nabor znova zagnati -- recimo, po odkritju zamujene vrste entitete -- preset da enak rezultat vsakic. Ad-hoc konfiguracije tega ne morejo zagotoviti.

Problem dvanajstih podatkovnih znanstvenikov

Ekipa ML finteha v Evropi uporablja nabore iz dnevnikov strank. DPO je odobril namen -- zaznavanje goljufij -- z enim pravilom: vsa imena strank, e-postni naslovi, telefonske stevilke in ID-ji placil morajo biti zamenjani, preden se zacne modelno delo.

Brez prednastavitev:

Oseba 1 odstrani imena, e-postne naslove in telefonske stevilke -- toda zamudi ID-je placil
Oseba 2 vkljuci ID-je placil, a uporablja Redakt, ne Zamenjavo
Oseba 3 tocno sledi dokumentu nacr ta
Osebe 4-12 se razlikujejo

Zdruzeni nabor je delno neskladen in delno prekomerno obdelan. DPO ga ne more potrditi.

Z DPO-odobreno prednastavitvijo:

DPO ustvari "ML Dev -- Zaznavanje goljufij" s tocnimi vrstami entitet in metodo Zamenjava
Prednastavitev gre vsem dvanajstim z enim pravilom: za vse modelno delo uporabite to
Nihce ne more spremeniti prednastavitve brez odobritve DPO

Vsaka oseba zdaj ustvari enak izhod. Zdruzeni nabor je dosleden. Letna revizija UI se opravi brez ugotovitev. Prejsnje leto je imelo tri ugotovitve iz nedoslednega dela z nabori.

Posodobljeno za leto 2026

Zakon EU o UI je v celoti stopil v veljavo avgusta 2024. Dodaja pravila za sisteme UI, ki za modelno delo uporabljajo osebne podatke. Visoko tvegani sistemi UI morajo dokumentirati svoje nabore, vkljucno s tem, katera anonimizacija je bila uporabljena.

Clen 5(1)(b) GDPR -- pravilo o omejitvi namena -- blokira uporabo osebnih podatkov brez jasne pravne podlage. Primeri CNIL iz leta 2024 so se osredotocili na to vrzel: podatki, zbrani za eno storitev, uporabljeni za modelno delo brez veljavne podlage ali anonimizacije.

Prednastavitve pomagajo izpolniti oba niza pravil:

Ime in konfiguracija prednastavitve: dokumentirana metoda
Dnevniki obdelave: dokaz, da je bila metoda uporabljena
Odobritev DPO: zabelezena potrditev konfiguracije

To ustvari revizijsko sled, ki jo zahtevata oba zakona. Za obveznosti po Clenu 10 v podrobnosti glejte vodic za podatke o usposabljanju EU AI Act.

Konfiguracija prednastavitev za nabore NLP modelov

Vrste, ki jih je treba vkljuciti v vecino naborov NLP modelov:

PERSON -- Zamenjava s podobnimi imeni
EMAIL_ADDRESS -- Zamenjava s sinteticnimi naslovi
PHONE_NUMBER -- Zamenjava s sinteticnimi stevilkami
CREDIT_CARD / IBAN -- Zamenjava ali Redakt
LOCATION -- Zamenjava s podobnimi kraji, ce je lokacija pomembna; Redakt, ce ni
DATE_OF_BIRTH -- Redakt; pogosto je potrebno grupiranje po starosti

Vrste, ki se pogosto izpuscajo:

Splosni datumi -- casovni znaki pomagajo casovnim modelom
Imena organizacij -- pomagajo modelom za prepoznavanje imenskih entitet
URL-ji -- pomagajo modelom za povezave in reference

Vodja ML in DPO nastavita ta pravila v odobreni prednastavitvi. Clani ekipe jo uveljavljajo. Ne sprejemajo konfiguracijskih odlocitev.

Prednastavitve kot institucijski spomin

Pred prednastavitvami. Pravilna konfiguracija entitet je zivela v glavah treh podatkovnih znanstvenikov. Delali so skozi pregled skladnosti. Dva sta odisla v Q3. Znanje je slo z njima.

Po prednastavitvah. Konfiguracija zivi v "ML Dev -- Evidence strank v2.1". Dnevnik razlicic pokaze, kdaj je bila narejena, kdo jo je odobril in kaj se je spremenilo od v2.0. Novi clani ekipe uporabljajo prednastavitev in dobijo vso znanje, vgrajeno vanjo.

Razlicica 2.1 je dodala zaznavanje IBAN po tem, ko je pregled ugotovil, da manjka. Razlicica 2.0 je bila odobrena februarja 2025. Dnevnik je popoln.

Za to, kako delujejo dnevniki obdelave in tokovi pregleda DPO, glejte vodic za anonimizacijo ML usposabljanja GDPR.

Prednastavitve vs. vzorec CNIL

Primeri UI CNIL iz leta 2024 vzpostavljajo jasen vzorec. Sprasuljejo ne le, kaj je bilo odstranjeno, ampak kako je bilo upravljano. Skupna prednastavitev z evidenco odobritve DPO in dnevniki obdelave na to odgovori neposredno.

Ad-hoc konfiguracija ne odgovori. Enaka vrzel obstaja v drugih primerih DPA EU, ki sledijo logiki CNIL. Za vec o pristopu CNIL do UI glejte vodic za skladnost CNIL GDPR UI.

Zakljucek

Dokumentacija clanov ekipe pove, kaj morajo storiti. Prednastavitve to olajsajo -- in uveljavijo -- da to storijo enako vsakic.

Za modelne nabore ML je doslednost tako pravna kot tehnicna zahteva. Prednastavitev obe izpolni hkrati.

DPA-ji, ki gledajo prakse UI, zelijo dokaze o enotni anonimizaciji. Prednastavitev, ki se na enak nacin uveljavi pri vseh delih nabora, je najjasnejsi dokaz, ki ga lahko podate.

Viri

Sorodni članki

Tehnično

Ste pripravljeni zaščititi svoje podatke?

Začnite z anonimizacijo PII z več kot 285 tipi entitet v 48 jezikih.

Začnite brezplačno preizkušnjo Ogled funkcij

Reproduktibilna zasebnost: Prednastavitve ML

Reproduktibilna zasebnost: Zakaj ekipe ML potrebujejo prednastavitve, ne le dokumentacijo

Zakaj modelni nabori ML potrebujejo lastno konfiguracijo

Problem dvanajstih podatkovnih znanstvenikov

Konfiguracija prednastavitev za nabore NLP modelov

Prednastavitve kot institucijski spomin

Prednastavitve vs. vzorec CNIL

Zakljucek

Viri

Sorodni članki

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ste pripravljeni zaščititi svoje podatke?

Reproduktibilna zasebnost: Prednastavitve ML

Reproduktibilna zasebnost: Zakaj ekipe ML potrebujejo prednastavitve, ne le dokumentacijo

Zakaj modelni nabori ML potrebujejo lastno konfiguracijo

Problem dvanajstih podatkovnih znanstvenikov

GDPR in Zakon o UI

Konfiguracija prednastavitev za nabore NLP modelov

Prednastavitve kot institucijski spomin

Prednastavitve vs. vzorec CNIL

Zakljucek

Viri

Sorodni članki

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ste pripravljeni zaščititi svoje podatke?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow