anonym.legal

By · Last updated 2026-06-04

Назад на блоготТехнички

Обновлива приватност: ML предлошки

Анонимизацијата на ML податоците за обука мора да биде конзистентна и обновлива. Ако научниците за податоци А и Б применуваат различни видови ентитети, наборите за обука се несогласувачки.

June 4, 20266 мин читање
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Обновлива приватност: Зошто ML тимовите треба предлошки, а не само документи

DPO ја одобри планот за анонимизација. Покрива четири ставки: имиња, е-пошти, телефонски броеви и датуми на раѓање. Методот е Замени. Планот е четири страни и живее во вики за усогласеност.

Дванаесет научници за податоци го читаат на почетокот. Секој ја поставува алатката самостојно. Некои додаваат национални ID-а. Некои додаваат IP адреси. Некои преминуваат на Редактирај. Три месеци подоцна, наборите не се конзистентни.

CNIL проверил неколку AI фирми во 2024. Прашањето: неправилна употреба на лични детали во наборите на модели. Не прашале само дали се случила анонимизација. Прашале колку конзистентно е применета.

Документите се потребни. Тие не се доволни. Поправката е предлошката.

Зошто наборите на ML модели им требаат сопствена конфигурација

Градењето на наборите на модели има уникатни потреби. Општата анонимизација на документи не ги дели.

Замени, а не Редактирај. Моделите обучени на текст каде имињата стануваат [РЕДАКТИРАНО] го учат тој токен како маркер за позиција на ime. Ова го штети моделот. Замени го заменува "Јован Петровски" со "Давид Чен". Моделот гледа вистински обрасци на имиња. Не гледа маскиран токен.

Ист процес за сите записи. Набор каде 70% од имињата се заменети и 30% се [РЕДАКТИРАНО] испраќа мешан сигнал. Секој запис мора да поминe низ истите чекори.

Иста листа на ентитети. Ако наборот содржи здравствени детали, отстранувањето на имиња но оставањето на датуми на раѓање во некои записи создава јазнини. Сите дванаесет научници за податоци мора да ги отстранат истите видови.

Без претерано отстранување. Земањето на датуми кои се временски ознаки — а не датуми на раѓање — го намалува квалитетот на наборот без придобивка во усогласеноста. Одобрената предлошка точно кажува кои ставки да се отстранат.

Обновлив излез. Ако набор мора да се стартува повторно — да речеме, по откривањето на пропуштен вид ентитет — предлошката дава ист резултат секој пат. Ad-hoc конфигурациите не.

Проблемот со дванаесет научници за податоци

ML тим за финтек во Европа користи наборите од дневниците на клиентите. DPO ја одобрил намената — откривање на измами — со едно правило: сите имиња на клиенти, е-пошти, телефонски броеви и ID-а на плаќање мора да бидат заменети пред да почне работата на моделот.

Без предлошки:

  • Лице 1 ги отстранува имињата, е-поштите и телефонските броеви — но ги пропушта ID-ата на плаќање
  • Лице 2 ги вклучува ID-ата на плаќање но користи Редактирај, а не Замени
  • Лице 3 го следи точно документот за план
  • Лица 4–12 варираат

Обединетиот набор е делумно неусогласен и делумно претерано обработен. DPO не може да го сертифицира.

Со предлошка одобрена од DPO:

  • DPO создава "ML Развој — Откривање измами" со точни видови ентитети и методот Замени
  • Предлошката оди до сите дванаесет луѓе со едно правило: користете го ова за сета работа на наборот
  • Никој не може да ја менува предлошката без одобрение на DPO

Секое лице сега произведува ист излез. Обединетиот набор е конзистентен. Годишната AI ревизија поминува без наоди. Претходната година имала три наоди од несогласувачка работа на набори.

GDPR и Актот за AI

Ажурирано за 2026 година

Актот за AI на ЕУ стапи во целосна сила во август 2024. Додава правила за AI системи кои користат лични детали за работа со модели. Системите за AI со висок ризик мора да ги документираат своите наборите, вклучувајќи каква анонимизација е применета.

Членот 5(1)(б) на GDPR — правилото за ограничување на намената — го блокира користењето на лични детали без јасна правна основа. Случаите на CNIL од 2024 се фокусирале на оваа јазнина: детали собрани за една услуга користени за работа со модели без валидна основа или анонимизација.

Предлошките помагаат да се задоволат двата сета на правила:

  • Ime и конфигурација на предлошката: документираниот метод
  • Записи за обработка: доказ дека методот е применет
  • Одобрување на DPO: снимено одобрување на конфигурацијата

Ова создава ревизиска патека која ги бараат двата закони. За обврските на Членот 10 во детали, видете го водичот за податоци за обука по Актот за AI на ЕУ.

Конфигурација на предлошки за наборите на NLP модели

Видови за вклучување во повеќето наборите на NLP модели:

  • ЛИЦЕ — Замени со слични имиња
  • Е-ПОШТА АДРЕСА — Замени со синтетички адреси
  • ТЕЛЕФОНСКИ БРОЈ — Замени со синтетички броеви
  • КРЕДИТНА КАРТИЧКА / IBAN — Замени или Редактирај
  • ЛОКАЦИЈА — Замени со слични места ако локацијата е важна; Редактирај ако не е
  • ДАТУМ НА РАЃАЊЕ — Редактирај; честопати е потребно групирање по возраст

Видови кои честопати се изоставуваат:

  • Општи датуми — временските ознаки им помагаат на временските модели
  • Имиња на организации — им помагаат на моделите за именувани ентитети
  • URL-адреси — им помагаат на моделите за врски и референци

ML водачот и DPO ги поставуваат овие правила во одобрената предлошка. Членовите на тимот ја применуваат. Тие не прават избори за конфигурација.

Предлошките како институционална меморија

Пред предлошките. Вистинската конфигурација на ентитети живеела во главите на тројца научници за податоци. Тие работеле низ прегледот за усогласеност. Двајца заминале во третиот квартал. Знаењето заминало со нив.

По предлошките. Конфигурацијата живее во "ML Развој — Записи на клиенти v2.1". Дневникот на верзии покажува кога е направена, кој ја одобрил и што се сменило од v2.0. Новите членови на тимот ја користат предлошката и го добиваат сето знаење вградено во неа.

Верзијата 2.1 го додала откривање на IBAN откако прегледот открил дека недостасува. Верзијата 2.0 е одобрена во февруари 2025. Дневникот е комплетен.

За тоа како функционираат записите за обработка и тековите за преглед на DPO, видете водичот за анонимизација на ML податоци за обука по GDPR.

Предлошки наспроти образецот на CNIL

АI случаите на CNIL од 2024 поставуваат јасен образец. Тие не прашуваат само што е отстрането туку и како е управувано. Заедничка предлошка со запис за одобрување на DPO и записи за обработка директно го одговара ова.

Ad-hoc конфигурацијата не. Истата јазнина постои во другите случаи на EU DPA кои ја следат логиката на CNIL. За повеќе за AI пристапот на CNIL, видете водичот за усогласеност на GDPR AI на CNIL.

Заклучок

Документите им кажуваат на членовите на тимот што да прават. Предлошките го прават лесно — и применливо — да го прават на ист начин секој пат.

За наборите на ML модели, конзистентноста е и правна и техничка потреба. Предлошката ги задоволува двете одеднаш.

DPA-те кои ги разгледуваат AI практиките сакаат докази за еднообразна анонимизација. Предлошката применета на ист начин низ сета работа на наборите е најјасниот доказ кој можете да им го дадете.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.