Reprodukovatelne sukromie: Preco timy ML potrebuju predvolby, nie len dokumenty

DPO schvalilo plan anonymizacie. Pokryva stiri polozky: mena, e-maily, telefonne cisla a datumy narodenia. Metoda je Replace. Plan ma styri stranky a nachadza sa v kompliancnom wiki.

Dvanast datovych vedcov ho precítalo na kickoffe. Kazdy nastavil nastroj samostatne. Niektorí pridali narodne ID. Niektorí pridali IP adresy. Niektorí prepli na Redact. O tri mesiace neskôr sady nie su konzistentné.

CNIL kontrolovala niekolko firiem AI v roku 2024. Problem: nevhodne pouzívanie osobnych udajov v modelových sadách. Nepytali sa len na to, ci k anonymizacii doslo. Pytali sa, ako konzistentne bola aplikovaná.

Dokumenty su potrebne. Nestacia. Opatrením je predvolba.

Preco modelové sady ML potrebuju vlastnu konfiguraciu

Budovanie modelovych sad ma jedinecne poziadavky. Vseobecna anonymizacia dokumentov ich nezdielá.

Replace, nie Redact. Modely trénované na texte, kde mena sa stanu [REDACTED], sa naucí tento token ako marker pozície mena. To skodí modelu. Replace vymeni "John Smith" za "David Chen." Model vidí realné vzory mien. Nevidi maskovaci token.

Rovnaky proces pre vsetky zaznamy. Sada, kde 70% mien je nahradených a 30% je [REDACTED], posiela zmiešaný signal. Kazdy zaznam musí prejst rovnakymi krokmi.

Rovnaky zoznam entit. Ak sada obsahuje zdravotné udaje, odstraňovanie mien ale zachovanie datumov narodenia v niektorych zaznamoch vytvara medzery. Vsetkych dvanast datovych vedcov musi odstranit rovnake typy.

Bez nadmernaho odstranovania. Vybratanie datumov, ktore su casove peciatky - nie datumy narodenia - znizuje kvalitu sady bez zisku v oblasti suladenosta. Schvalena predvolba uvadza presne, ktore polozky odstranit.

Reprodukovatelný vystup. Ak sa musí sada znovu spustit - napr. po tom, co sa najde chybajuci typ entity - predvolba dava kazdy raz rovnaky vysledok. Ad hoc konfigurácie to nedavaju.

Problem dvanastich datovych vedcov

Fintech ML tím v Europé pouzíva sady z protokolov zákazníkov. DPO schvalilo ucel - detekcia podvodov - s jednym pravidlom: vsetky mena zákazníkov, e-maily, telefonne cisla a ID platby musia byt nahradené pred zacatím prace na modeli.

Bez predvolieb:

Osoba 1 odstrani mena, e-maily a telefonne cisla - ale zameskala ID platby
Osoba 2 zahrnuje ID platby, ale pouzíva Redact, nie Replace
Osoba 3 nasleduje presne planový dokument
Osoby 4 az 12 sa lisia

Zlúcená sada je ciastocne nesuladna a ciastocne nadmerne spracovana. DPO ju nemoze certifikovat.

S predvolbou schvalenou DPO:

DPO vytvorí "ML Dev - Detekcia podvodov" s presnymi typmi entit a metodou Replace
Predvolba ide vsetkym dvanastim ludom s jednym pravidlom: pouzivaite to pre vsetku pracu so sadami
Nikto nemoze zmenit predvolbu bez suhlasu DPO

Kazda osoba teraz produkuje rovnaky vystup. Zlucena sada je konzistentna. Rocny audit AI prebehne bez zisteni. Predchadzajuci rok mal tri zistenia z nekonzistentnej prace so sadami.

Aktualizovane pre rok 2026

EU zákon o AI vstupil do plnej uccinnosti v auguste 2024. Pridava pravidla pre systemy AI, ktore pouzivaju osobne udaje pre pracu na modeli. Systemy AI s vysokym rizikom musia dokumentovat svoje sady vrátane toho, aka anonymizacia bola aplikovana.

Clanok 5(1)(b) GDPR - pravidlo obmedzenia ucelu - blokuje pouzitie osobnych udajov bez jasneho pravneho zakladu. Pripady CNIL z roku 2024 sa zamerali na tuto medzeru: udaje zozbierane pre jednu sluzbu pouzite pre pracu na modeli bez platného zakladu alebo anonymizacie.

Predvolby pomahaju splnit obe sady pravidiel:

Nazov a konfiguracia predvolby: zdokumentovana metoda
Procesné logy: dokaz, ze metoda bola aplikovana
Souhlas DPO: zaznamenaný schváleny na konfiguracion

Tym sa vytvori auditny zaznam, ktory vyzaduju oba zakony. Pre podrobnosti o povinnostiach Clanku 10, pozrite si sprievodcu trénovacimi datami EU zakona o AI.

Konfiguracia predvolby pre sady NLP modelu

Typy, ktore zahrnut vo vacsine sad NLP modelu:

PERSON - Nahradit podobnymi menami
EMAIL_ADDRESS - Nahradit syntetickymi adresami
PHONE_NUMBER - Nahradit syntetickymi cislami
CREDIT_CARD / IBAN - Nahradit alebo Redact
LOCATION - Nahradit podobnymi miestami ak je poloha dolezitá; Redact ak nie je
DATE_OF_BIRTH - Redact; casto je potrebne zoskupenie podla veku

Typy casto vynechávané:

Vseobecné datumy - casové peciatky pomahaju casovym modelom
Nazvy organizacii - pomahaju modelom pomenovaných entit
URL - pomahaju modelom odkazov a referencii

Vedúci ML a DPO nastavia tieto pravidla v schvalenej predvolbe. Clenovia timu ju aplikuju. Nevytvaraju konfiguracne rozhodnutia.

Predvolby ako institutionalna pamat

Pred predvolbami. Spravna konfiguracia entit zila v hlavach troch datovych vedcov. Pracovali si cez kontrolu suladenosta. Dvaja odisli v Q3. Znalosti odisli s nimi.

Po predvolbách. Konfiguracia zije v "ML Dev - Zaznamy zákazníkov v2.1." Log verzii ukazuje, kedy bol vytvoreny, kto ho schvalil a co sa zmenilo z v2.0. Noví clenovia timu pouzivaiu predvolbu a dostanu vsetky znalosti do nej zabudovane.

Verzia 2.1 pridala detekciu IBAN po tom, co kontrola zistila, ze chyba. Verzia 2.0 bola schvalena vo februári 2025. Log je uplny.

Pre to, ako funguju procesné logy a toky kontroly DPO, pozrite si sprievodcu anonymizaciou trénovacich dat ML podla GDPR.

Predvolby vs. vzor CNIL

Pripady AI CNIL z roku 2024 ustavuju jasny vzor. Nepytaju sa len na to, co bolo odstranene, ale ako to bolo riadené. Zdielaná predvolba so zaznamom suhlasu DPO a procesnymi logmi na to odpovieda priamo.

Ad hoc konfiguracia nie. Rovnaka medzera existuje v inych pripadoch EU DPA, ktore nasleduju logiku CNIL. Pre viac o pristupe CNIL k AI, pozrite si sprievodcu suladenosta GDPR CNIL AI.

Zaver

Dokumenty hovoria clenomtimu, co mat robit. Predvolby to robia lahkym - a vynutil'itelnym - robit to rovnakym sposobom kazdy raz.

Pre sady ML modelov je konzistentnost jak pravnou tak technickou potrebou. Predvolba splna obe naraz.

DPA sledujuce praksy AI chcu dokazy o jednotnej anonymizacii. Predvolba aplikovana rovnakym sposobom napriec vsetkymi sadami je najjasnejsim dokazom, ktory im mozete dat.

Zdroje

Súvisiace články

Technické

Pripravení chrániť vaše údaje?

Začnite anonymizovať PII s 285+ typmi entít v 48 jazykoch.

Začať bezplatnú skúšobnú verziu Zobraziť funkcie

Reprodukovatelne sukromie: Predvolby pre ML

Reprodukovatelne sukromie: Preco timy ML potrebuju predvolby, nie len dokumenty

Preco modelové sady ML potrebuju vlastnu konfiguraciu

Problem dvanastich datovych vedcov

Konfiguracia predvolby pre sady NLP modelu

Predvolby ako institutionalna pamat

Predvolby vs. vzor CNIL

Zaver

Zdroje

Súvisiace články

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pripravení chrániť vaše údaje?

Reprodukovatelne sukromie: Predvolby pre ML

Reprodukovatelne sukromie: Preco timy ML potrebuju predvolby, nie len dokumenty

Preco modelové sady ML potrebuju vlastnu konfiguraciu

Problem dvanastich datovych vedcov

GDPR a zákon o AI

Konfiguracia predvolby pre sady NLP modelu

Predvolby ako institutionalna pamat

Predvolby vs. vzor CNIL

Zaver

Zdroje

Súvisiace články

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Pripravení chrániť vaše údaje?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow