Обновлива приватност: Зошто ML тимовите треба предлошки, а не само документи
DPO ја одобри планот за анонимизација. Покрива четири ставки: имиња, е-пошти, телефонски броеви и датуми на раѓање. Методот е Замени. Планот е четири страни и живее во вики за усогласеност.
Дванаесет научници за податоци го читаат на почетокот. Секој ја поставува алатката самостојно. Некои додаваат национални ID-а. Некои додаваат IP адреси. Некои преминуваат на Редактирај. Три месеци подоцна, наборите не се конзистентни.
CNIL проверил неколку AI фирми во 2024. Прашањето: неправилна употреба на лични детали во наборите на модели. Не прашале само дали се случила анонимизација. Прашале колку конзистентно е применета.
Документите се потребни. Тие не се доволни. Поправката е предлошката.
Зошто наборите на ML модели им требаат сопствена конфигурација
Градењето на наборите на модели има уникатни потреби. Општата анонимизација на документи не ги дели.
Замени, а не Редактирај. Моделите обучени на текст каде имињата стануваат [РЕДАКТИРАНО] го учат тој токен како маркер за позиција на ime. Ова го штети моделот. Замени го заменува "Јован Петровски" со "Давид Чен". Моделот гледа вистински обрасци на имиња. Не гледа маскиран токен.
Ист процес за сите записи. Набор каде 70% од имињата се заменети и 30% се [РЕДАКТИРАНО] испраќа мешан сигнал. Секој запис мора да поминe низ истите чекори.
Иста листа на ентитети. Ако наборот содржи здравствени детали, отстранувањето на имиња но оставањето на датуми на раѓање во некои записи создава јазнини. Сите дванаесет научници за податоци мора да ги отстранат истите видови.
Без претерано отстранување. Земањето на датуми кои се временски ознаки — а не датуми на раѓање — го намалува квалитетот на наборот без придобивка во усогласеноста. Одобрената предлошка точно кажува кои ставки да се отстранат.
Обновлив излез. Ако набор мора да се стартува повторно — да речеме, по откривањето на пропуштен вид ентитет — предлошката дава ист резултат секој пат. Ad-hoc конфигурациите не.
Проблемот со дванаесет научници за податоци
ML тим за финтек во Европа користи наборите од дневниците на клиентите. DPO ја одобрил намената — откривање на измами — со едно правило: сите имиња на клиенти, е-пошти, телефонски броеви и ID-а на плаќање мора да бидат заменети пред да почне работата на моделот.
Без предлошки:
- Лице 1 ги отстранува имињата, е-поштите и телефонските броеви — но ги пропушта ID-ата на плаќање
- Лице 2 ги вклучува ID-ата на плаќање но користи Редактирај, а не Замени
- Лице 3 го следи точно документот за план
- Лица 4–12 варираат
Обединетиот набор е делумно неусогласен и делумно претерано обработен. DPO не може да го сертифицира.
Со предлошка одобрена од DPO:
- DPO создава "ML Развој — Откривање измами" со точни видови ентитети и методот Замени
- Предлошката оди до сите дванаесет луѓе со едно правило: користете го ова за сета работа на наборот
- Никој не може да ја менува предлошката без одобрение на DPO
Секое лице сега произведува ист излез. Обединетиот набор е конзистентен. Годишната AI ревизија поминува без наоди. Претходната година имала три наоди од несогласувачка работа на набори.
GDPR и Актот за AI
Ажурирано за 2026 година
Актот за AI на ЕУ стапи во целосна сила во август 2024. Додава правила за AI системи кои користат лични детали за работа со модели. Системите за AI со висок ризик мора да ги документираат своите наборите, вклучувајќи каква анонимизација е применета.
Членот 5(1)(б) на GDPR — правилото за ограничување на намената — го блокира користењето на лични детали без јасна правна основа. Случаите на CNIL од 2024 се фокусирале на оваа јазнина: детали собрани за една услуга користени за работа со модели без валидна основа или анонимизација.
Предлошките помагаат да се задоволат двата сета на правила:
- Ime и конфигурација на предлошката: документираниот метод
- Записи за обработка: доказ дека методот е применет
- Одобрување на DPO: снимено одобрување на конфигурацијата
Ова создава ревизиска патека која ги бараат двата закони. За обврските на Членот 10 во детали, видете го водичот за податоци за обука по Актот за AI на ЕУ.
Конфигурација на предлошки за наборите на NLP модели
Видови за вклучување во повеќето наборите на NLP модели:
- ЛИЦЕ — Замени со слични имиња
- Е-ПОШТА АДРЕСА — Замени со синтетички адреси
- ТЕЛЕФОНСКИ БРОЈ — Замени со синтетички броеви
- КРЕДИТНА КАРТИЧКА / IBAN — Замени или Редактирај
- ЛОКАЦИЈА — Замени со слични места ако локацијата е важна; Редактирај ако не е
- ДАТУМ НА РАЃАЊЕ — Редактирај; честопати е потребно групирање по возраст
Видови кои честопати се изоставуваат:
- Општи датуми — временските ознаки им помагаат на временските модели
- Имиња на организации — им помагаат на моделите за именувани ентитети
- URL-адреси — им помагаат на моделите за врски и референци
ML водачот и DPO ги поставуваат овие правила во одобрената предлошка. Членовите на тимот ја применуваат. Тие не прават избори за конфигурација.
Предлошките како институционална меморија
Пред предлошките. Вистинската конфигурација на ентитети живеела во главите на тројца научници за податоци. Тие работеле низ прегледот за усогласеност. Двајца заминале во третиот квартал. Знаењето заминало со нив.
По предлошките. Конфигурацијата живее во "ML Развој — Записи на клиенти v2.1". Дневникот на верзии покажува кога е направена, кој ја одобрил и што се сменило од v2.0. Новите членови на тимот ја користат предлошката и го добиваат сето знаење вградено во неа.
Верзијата 2.1 го додала откривање на IBAN откако прегледот открил дека недостасува. Верзијата 2.0 е одобрена во февруари 2025. Дневникот е комплетен.
За тоа како функционираат записите за обработка и тековите за преглед на DPO, видете водичот за анонимизација на ML податоци за обука по GDPR.
Предлошки наспроти образецот на CNIL
АI случаите на CNIL од 2024 поставуваат јасен образец. Тие не прашуваат само што е отстрането туку и како е управувано. Заедничка предлошка со запис за одобрување на DPO и записи за обработка директно го одговара ова.
Ad-hoc конфигурацијата не. Истата јазнина постои во другите случаи на EU DPA кои ја следат логиката на CNIL. За повеќе за AI пристапот на CNIL, видете водичот за усогласеност на GDPR AI на CNIL.
Заклучок
Документите им кажуваат на членовите на тимот што да прават. Предлошките го прават лесно — и применливо — да го прават на ист начин секој пат.
За наборите на ML модели, конзистентноста е и правна и техничка потреба. Предлошката ги задоволува двете одеднаш.
DPA-те кои ги разгледуваат AI практиките сакаат докази за еднообразна анонимизација. Предлошката применета на ист начин низ сета работа на наборите е најјасниот доказ кој можете да им го дадете.