Taasesitatav privaatsus: miks ML meeskonnad vajavad eelsatteid, mitte ainult dokumentatsiooni
DPO kinnitas anonüümimise kava. See katab neli punkti: nimed, e-posti aadressid, telefoninumbrid ja sunnikuupaevad. Meetod on Asendamine. Kava on neli lehekülge ja asub vastavuse wikis.
Kaksteist andmeteadlast lugesid seda algatamise ajal. Igaüks seab tööriista ise üles. Moned lisavad rahvuslikud ID-d. Moned lisavad IP-aadressid. Moned liiguvad Varjamisele. Kolm kuud hiljem pole andmestikud järjekindlad.
CNIL kontrollis mitmeid tehisintellekti firmasid 2024. aastal. Probleem: isikuandmete ebaõige kasutamine mudelite andmestikes. Nad ei küsinud ainult, kas anonüümimine toimus. Nad küsisid, kui järjekindlalt seda rakendati.
Dokumentatsioon on vajalik. See ei ole piisav. Lahendus on eelsäte.
Miks ML mudelite andmestikud vajavad oma konfiguratsiooni
Mudelite andmestike koostamisel on ainulaadsed vajadused. Üldine dokumendianonüümimine neid ei jaga.
Asendamine, mitte Varjamine. Mudelid, mida koolitatakse tekstil, kus nimed muutuvad [REDACTED]-ks, opivad seda lugendit nime-positsioonina. See kahjustab mudelit. Asendamine vahetab "Jaan Tamm" valja "Mart Sepp" vastu. Mudel nab reaalseid nimemustrid. See ei naa maskimise lugendit.
Sama protsess koigi andmestike jaoks. Andmestik, kus 70% nimedest on asendatud ja 30% on [REDACTED], annab segase signaali. Iga andmestik peab labimaama samad sammud.
Sama olemite nimekiri. Kui andmestik sisaldab terviseandmeid, siis nimede eemaldamine, kuid sunnikuupäevade jätmine mõnesse andmestiku sisse, tekitab lünki. Koik kaksteist andmeteadlast peavad eemaldama samad tüübid.
Mitte üleliigne eemaldamine. Kuupäevade kõrvaldamine, mis on ajatemplid - mitte sunnikuupäevad - vahendab andmestiku kvaliteeti ilma vastavuse kasuta. Kinnitatud eelsäte ütleb tapselt, milliseid andmeid eemaldada.
Korratav vaijund. Kui andmestikku tuleb uuesti läbi joosta - näiteks pärast vahele jäänud olemitüübi avastamist - annab eelsäte iga kord sama tulemuse. Ad-hoc konfiguratsioonid seda ei tee.
Kaheteistkumne andmeteadlase probleem
Euroopa finantstehnoloogia ML meeskond kasutab kliendilogidest parit andmestikke. DPO kiitis kasutamise eesmärgi - pettuste tuvastamine - heaks ühe reegliga: koik klientide nimed, e-posti aadressid, telefoninumbrid ja makseId-d tuleb asendada enne mudeli too algust.
Ilma eelsatteta:
- Isik 1 eemaldab nimed, e-posti aadressid ja telefoninumbrid - kuid jätab makseId-d vahele
- Isik 2 lisab makseId-d, kuid kasutab Varjamist, mitte Asendamist
- Isik 3 järgib kavadokumenti tapselt
- Isikud 4-12 varieeruvad
Ühendatud andmestik on osaliselt mitte-nõuetekohane ja osaliselt üle töödeldud. DPO ei saa seda sertifitseerida.
DPO kinnitatud eelsattega:
- DPO loob "ML arendus - pettuste tuvastamine" koos täpsete olemitüüpide ja Asendamise meetodiga
- Eelsäte saadetakse koigile kaheteistkümnele isikule ühe reegliga: kasutage seda koigi andmestiku too jaoks
- Keegi ei saa eelsadet muuta ilma DPO heakskiiduta
Igaüks toodab nüüd sama väljundi. Ühendatud andmestik on järjekindel. Iga-aastane tehisintellekti audit läbib nullleidudega. Eelmisel aastal oli kolm leidu ebajärjekindlast andmestiku toost.
GDPR ja tehisintellekti akt
Ajakohastatud 2026. aastaks
EL tehisintellekti akt jõustus täielikult augustis 2024. See lisab reegleid tehisintellekti süsteemidele, mis kasutavad isikuandmeid mudeli too jaoks. Korkristlike tehisintellekti süsteemide andmestikud tuleb dokumenteerida, sealhulgas rakendatud anonüümimine.
GDPR artikkel 5(1)(b) - eesmärgi piirangu reegel - blokeerib isikuandmete kasutamise ilma selge seadusliku aluseta. CNIL-i 2024. aasta juhtumid keskendusid sellele lüngale: ühe teenuse jaoks kogutud andmed kasutati mudeli töös ilma kehtiva aluse voi anonüümimiseta.
Eelsatted aitavad rahuldada mõlemat reeglite kogumit:
- Eelsatte nimi ja konfiguratsioon: dokumenteeritud meetod
- Töötlemislogid: tõend meetodi rakendamise kohta
- DPO kinnitus: registreeritud heakskiit konfiguratsioonile
See loob mõlema seaduse nõutava auditi raja. Artikli 10 kohustuste üksikasjaliku teabe saamiseks vt EL tehisintellekti akti koolitusdagaandmete juhend.
Eelsatte konfiguratsioon NLP mudelite andmestike jaoks
Tüübid, mida lisada enamiku NLP mudelite andmestikesse:
- PERSON - Asendage sarnaste nimedega
- EMAIL_ADDRESS - Asendage sünteetiliste aadressidega
- PHONE_NUMBER - Asendage sünteetiliste numbritega
- CREDIT_CARD / IBAN - Asendage voi Varjake
- LOCATION - Asendage sarnaste kohtadega, kui asukoht on oluline; Varjake, kui mitte
- DATE_OF_BIRTH - Varjake; sageli on vaja vanuse grupeerimist
Tüübid, mis sageli välja jäetakse:
- Üldised kuupäevad - ajatemplid aitavad ajalist mudelit
- Organisatsioonide nimed - aitavad nimega olemite mudelit
- URL-id - aitavad lingi- ja viitemudelit
ML juht ja DPO seavad need reeglid kinnitatud eelsattest. Meeskonnaliikmed rakendavad seda. Nad ei tee konfiguratsiooni valikuid.
Eelsatted institutsionaalse mäluna
Enne eelsatteid. Oige olemi konfiguratsioon elas kolme andmeteadlase peas. Nad olid lahti toonud vastavuse labi vaatamise. Kaks lahkusid Q3-s. Teadmised lahksid koos nendega.
Parast eelsatteid. Konfiguratsioon elab "ML arendus - klientide andmestikud v2.1"-s. Versiooni logi naitab, millal see loodi, kes selle kiitis heaks ja mis muutus v2.0-st. Uued meeskonnaliikmed kasutavad eelsadet ja saavad koik sinna sisseehitatud teadmised.
Versioon 2.1 lisas IBAN-tuvastamise parast seda, kui kontroll avastas selle puudumise. Versioon 2.0 kinnitati veebruaris 2025. Logi on taiielik.
Selle kohta, kuidas töötlemislogid ja DPO labi vaatamise vood töötavad, vt GDPR ML koolitusdaagandmete anonüümimise juhend.
Eelsatted vs. CNIL muster
CNIL-i 2024. aasta tehisintellekti juhtumid seavad selge mustri. Nad küsivad mitte ainult, mis eemaldati, vaid ka kuidas seda hallati. Jagatud eelsäte koos DPO kinnitamise andmestiku ja töötlemislogidega vastab sellele otse.
Ad-hoc konfiguratsioon ei vasta. Sama lünk esineb teistes EL andmekaitseasutuste juhtumites, mis järgivad CNIL-i loogika. CNIL-i tehisintellekti lahenemise kohta lisateabe saamiseks vt CNIL GDPR tehisintellekti vastavuse juhend.
Kokkuvõte
Dokumendid ütlevad meeskonnaliikmetele, mida teha. Eelsatted muudavad seda lihtsaks - ja jõustatavaks - teha iga kord samal viisil.
ML mudelite andmestike jaoks on järjekindlus nii seaduslik vajadus kui ka tehniline. Eelsäte rahuldab mõlemat korraga.
Andmekaitseametid, kes vaatavad tehisintellekti tavasid, tahavad tõendit ühtlasest anonüümimisest. Eelsäte, mida rakendatakse kogu andmestiku too labi samal viisil, on selgeim tõend, mida saate neile anda.