Reprodukovatelne sukromie: Preco timy ML potrebuju predvolby, nie len dokumenty
DPO schvalilo plan anonymizacie. Pokryva stiri polozky: mena, e-maily, telefonne cisla a datumy narodenia. Metoda je Replace. Plan ma styri stranky a nachadza sa v kompliancnom wiki.
Dvanast datovych vedcov ho precítalo na kickoffe. Kazdy nastavil nastroj samostatne. Niektorí pridali narodne ID. Niektorí pridali IP adresy. Niektorí prepli na Redact. O tri mesiace neskôr sady nie su konzistentné.
CNIL kontrolovala niekolko firiem AI v roku 2024. Problem: nevhodne pouzívanie osobnych udajov v modelových sadách. Nepytali sa len na to, ci k anonymizacii doslo. Pytali sa, ako konzistentne bola aplikovaná.
Dokumenty su potrebne. Nestacia. Opatrením je predvolba.
Preco modelové sady ML potrebuju vlastnu konfiguraciu
Budovanie modelovych sad ma jedinecne poziadavky. Vseobecna anonymizacia dokumentov ich nezdielá.
Replace, nie Redact. Modely trénované na texte, kde mena sa stanu [REDACTED], sa naucí tento token ako marker pozície mena. To skodí modelu. Replace vymeni "John Smith" za "David Chen." Model vidí realné vzory mien. Nevidi maskovaci token.
Rovnaky proces pre vsetky zaznamy. Sada, kde 70% mien je nahradených a 30% je [REDACTED], posiela zmiešaný signal. Kazdy zaznam musí prejst rovnakymi krokmi.
Rovnaky zoznam entit. Ak sada obsahuje zdravotné udaje, odstraňovanie mien ale zachovanie datumov narodenia v niektorych zaznamoch vytvara medzery. Vsetkych dvanast datovych vedcov musi odstranit rovnake typy.
Bez nadmernaho odstranovania. Vybratanie datumov, ktore su casove peciatky - nie datumy narodenia - znizuje kvalitu sady bez zisku v oblasti suladenosta. Schvalena predvolba uvadza presne, ktore polozky odstranit.
Reprodukovatelný vystup. Ak sa musí sada znovu spustit - napr. po tom, co sa najde chybajuci typ entity - predvolba dava kazdy raz rovnaky vysledok. Ad hoc konfigurácie to nedavaju.
Problem dvanastich datovych vedcov
Fintech ML tím v Europé pouzíva sady z protokolov zákazníkov. DPO schvalilo ucel - detekcia podvodov - s jednym pravidlom: vsetky mena zákazníkov, e-maily, telefonne cisla a ID platby musia byt nahradené pred zacatím prace na modeli.
Bez predvolieb:
- Osoba 1 odstrani mena, e-maily a telefonne cisla - ale zameskala ID platby
- Osoba 2 zahrnuje ID platby, ale pouzíva Redact, nie Replace
- Osoba 3 nasleduje presne planový dokument
- Osoby 4 az 12 sa lisia
Zlúcená sada je ciastocne nesuladna a ciastocne nadmerne spracovana. DPO ju nemoze certifikovat.
S predvolbou schvalenou DPO:
- DPO vytvorí "ML Dev - Detekcia podvodov" s presnymi typmi entit a metodou Replace
- Predvolba ide vsetkym dvanastim ludom s jednym pravidlom: pouzivaite to pre vsetku pracu so sadami
- Nikto nemoze zmenit predvolbu bez suhlasu DPO
Kazda osoba teraz produkuje rovnaky vystup. Zlucena sada je konzistentna. Rocny audit AI prebehne bez zisteni. Predchadzajuci rok mal tri zistenia z nekonzistentnej prace so sadami.
GDPR a zákon o AI
Aktualizovane pre rok 2026
EU zákon o AI vstupil do plnej uccinnosti v auguste 2024. Pridava pravidla pre systemy AI, ktore pouzivaju osobne udaje pre pracu na modeli. Systemy AI s vysokym rizikom musia dokumentovat svoje sady vrátane toho, aka anonymizacia bola aplikovana.
Clanok 5(1)(b) GDPR - pravidlo obmedzenia ucelu - blokuje pouzitie osobnych udajov bez jasneho pravneho zakladu. Pripady CNIL z roku 2024 sa zamerali na tuto medzeru: udaje zozbierane pre jednu sluzbu pouzite pre pracu na modeli bez platného zakladu alebo anonymizacie.
Predvolby pomahaju splnit obe sady pravidiel:
- Nazov a konfiguracia predvolby: zdokumentovana metoda
- Procesné logy: dokaz, ze metoda bola aplikovana
- Souhlas DPO: zaznamenaný schváleny na konfiguracion
Tym sa vytvori auditny zaznam, ktory vyzaduju oba zakony. Pre podrobnosti o povinnostiach Clanku 10, pozrite si sprievodcu trénovacimi datami EU zakona o AI.
Konfiguracia predvolby pre sady NLP modelu
Typy, ktore zahrnut vo vacsine sad NLP modelu:
- PERSON - Nahradit podobnymi menami
- EMAIL_ADDRESS - Nahradit syntetickymi adresami
- PHONE_NUMBER - Nahradit syntetickymi cislami
- CREDIT_CARD / IBAN - Nahradit alebo Redact
- LOCATION - Nahradit podobnymi miestami ak je poloha dolezitá; Redact ak nie je
- DATE_OF_BIRTH - Redact; casto je potrebne zoskupenie podla veku
Typy casto vynechávané:
- Vseobecné datumy - casové peciatky pomahaju casovym modelom
- Nazvy organizacii - pomahaju modelom pomenovaných entit
- URL - pomahaju modelom odkazov a referencii
Vedúci ML a DPO nastavia tieto pravidla v schvalenej predvolbe. Clenovia timu ju aplikuju. Nevytvaraju konfiguracne rozhodnutia.
Predvolby ako institutionalna pamat
Pred predvolbami. Spravna konfiguracia entit zila v hlavach troch datovych vedcov. Pracovali si cez kontrolu suladenosta. Dvaja odisli v Q3. Znalosti odisli s nimi.
Po predvolbách. Konfiguracia zije v "ML Dev - Zaznamy zákazníkov v2.1." Log verzii ukazuje, kedy bol vytvoreny, kto ho schvalil a co sa zmenilo z v2.0. Noví clenovia timu pouzivaiu predvolbu a dostanu vsetky znalosti do nej zabudovane.
Verzia 2.1 pridala detekciu IBAN po tom, co kontrola zistila, ze chyba. Verzia 2.0 bola schvalena vo februári 2025. Log je uplny.
Pre to, ako funguju procesné logy a toky kontroly DPO, pozrite si sprievodcu anonymizaciou trénovacich dat ML podla GDPR.
Predvolby vs. vzor CNIL
Pripady AI CNIL z roku 2024 ustavuju jasny vzor. Nepytaju sa len na to, co bolo odstranene, ale ako to bolo riadené. Zdielaná predvolba so zaznamom suhlasu DPO a procesnymi logmi na to odpovieda priamo.
Ad hoc konfiguracia nie. Rovnaka medzera existuje v inych pripadoch EU DPA, ktore nasleduju logiku CNIL. Pre viac o pristupe CNIL k AI, pozrite si sprievodcu suladenosta GDPR CNIL AI.
Zaver
Dokumenty hovoria clenomtimu, co mat robit. Predvolby to robia lahkym - a vynutil'itelnym - robit to rovnakym sposobom kazdy raz.
Pre sady ML modelov je konzistentnost jak pravnou tak technickou potrebou. Predvolba splna obe naraz.
DPA sledujuce praksy AI chcu dokazy o jednotnej anonymizacii. Predvolba aplikovana rovnakym sposobom napriec vsetkymi sadami je najjasnejsim dokazom, ktory im mozete dat.