anonym.legal

By · Last updated 2026-05-27

Назад на блоготТехнички

GDPR анонимизација на податоци за обука на ML

GDPR ги ограничува употребата на лични податоци за обука на ML надвор од оригиналната намена на нивното собирање. Тимовите за наука на податоци кои се потпираат на ad-hoc Python скрипти создаваат сериозни проблеми.

May 27, 20267 мин читање
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Една скрипта не е доволна

Секој тим за наука на податоци напишал нешто вакво:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Ова ги заменува адресите за е-пошта. Само тоа прави. Во наборот на податоци сè уште постојат имиња, телефонски броеви и медицински идентификатори. Тоа сè уште нема да помине GDPR ревизија.

Раскинот помеѓу "ги анонимизував е-пораките" и "овој набор на податоци е GDPR-усогласен" е голем. Тимовите постојано го потценуваат тоа.

Зошто GDPR ги ограничува употребите за обука на ML

Членот 5(1)(б) од GDPR е клучното правило. Тоа се нарекува принцип на ограничување на намената. Личните записи може да се користат само за намената за која се собрани.

Нарачките на клиентите биле собрани за исполнување на нарачките. Не за обука на модел за препораки. Здравствените досиеа биле собрани за лекување. Не за обука на модел за предвидување на повторни хоспитализации. Одговорите на анкетите биле собрани за повратни информации за производот. Не за обука на класификатор на чувства.

За да ги користат тие записи за обука на ML, тимот треба едно од трите:

  1. Изречна согласност од секое лице за намената на ML - тешко да се добие, честопати невозможно ретроспективно
  2. Проценка на легитимниот интерес која покажува дека употребата за ML е компатибилна - правно несигурно, зависно од DPA
  3. Анонимизација - замена или отстранување на личните детали за да наборот на податоци повеќе не биде личен под GDPR

Правилната анонимизација дава најголема правна сигурност. Предизвикот е да се направи правилно секој пат.

Проблемот со еднократните скрипти

Тимовите кои пишуваат нова Python скрипта за секој набор на податоци создаваат кумулативни проблеми.

Нецелосна покриеност. Скрипта изградена за една шема ги пропушта новите полиња. Колона со клинички белешки додадена пред шест месеци? Не е во регексот. Поле за средно име? Скриптата обработува само шаблони за прво и последно ime.

Нема конзистентност. Наборот на податоци A е обработен со script_v1. Наборот B ја користел script_v3. Наборот C го обработил различен член на тимот. Спојот на наборот за обука има три различни методи. DPO не може да го сертифицира.

Нема ревизорска трага. Скриптата се изврши. Што промени? Кои ентитети беа пронајдени? Без записи за обработка, усогласеноста е невозможна. Кога ревизорот на DPA прашува "Како знаете дека овој набор за обука е чист?", одговорот "Извршивме Python скрипта" не е доволен.

Drift на моделот. Регекс шаблоните кои работеле во 2023 година ги пропуштаат новите формати на идентификатори од 2024. Скриптите не се ажурираат сами.

Упатство за обработка во пакет

Тим за здравствена вештачка интелигенција треба да анонимизира 8.000 пациентски записи. Американскиот тим треба пристап од канцеларија во ЕУ. Се применува Schrems II - записите со потекло од ЕУ не можат да одат во инфраструктура во САД без соодветни заштитни мерки.

Традиционален пат: Инженер за податоци пишува прилагодена скрипта. Два до три дена на развој. Еден до два дена на преглед од DPO. Еден ден на итерации. Вкупно: четири до шест дена. Проектот за ML се одложува.

Пат со обработка во пакет:

  1. Извезете ги 8.000 записи како CSV
  2. Прикачете во обработка во пакет
  3. Поставете типови на ентитети: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Изберете метод: Replace (заменува реалистични синтетички вредности за зачувување на структурата)
  5. Обработете: 45 минути за 8.000 записи
  6. Преземете го чистиот CSV
  7. DPO ги прегледува метаподатоците за обработка - ентитети пронајдени по запис, применети методи: 2 часа
  8. DPO одобрува. Трансферот продолжува.

Вкупно време: 45 минути плус 2 часа прегледување од DPO. Наместо четири до шест дена.

Погледнете го водичот за обука според EU AI Act за тоа како истите чекори ги исполнуваат обврските според член 10.

Replace наспроти Redact за употреба во ML

Методот на анонимизација е важен за квалитетот на моделот.

Redact го заменува PII со токен како [REDACTED]. Ова функционира за модели за откривање PII. За други задачи - анализа на чувства, класификација, препораки - штети. Моделот учи дека [REDACTED] е специјален токен. Не може да учи од природната дистрибуција на имиња и вредности.

Replace го заменува "Иван Петров" со "Марко Симоновиќ." Го заменува "ismith@company.com" со "msimovic@synthetic.com." Структурата останува нетакната. Поставувањето на ентитети, шаблоните на ко-појавување, текот на реченицата - сите зачувани. Моделот учи од реалистичен контекст.

За наборите за обука на ML, Replace е вистинскиот избор. Моделот не ги учи лажните вредности. Ги учи шаблоните околу нив. Тоа е она што е важно.

Schrems II и прекугранични трансфери

Пресудата Schrems II (CJEU, 2020) ја поништи EU-US Privacy Shield. Записите со потекло од ЕУ не можат да одат во инфраструктура за ML во САД - AWS US-East, GCP US-Central - без соодветни заштитни мерки за трансфер.

Трите главни заштитни мерки се:

  • Стандардни договорни клаузули со Проценка на влијанието на трансферот
  • Обврзувачки корпоративни правила за трансфери во рамките на корпоративна група
  • Дерогација за анонимизирани записи - правилно анонимизираните датотеки повеќе не се лични под GDPR и се ослободени од правилата за трансфер

За тимовите кои користат инфраструктура во САД со набори со потекло од ЕУ, правилната анонимизација го отстранува проблемот со Schrems II. Чистиот набор на податоци не е личен. Може слободно да се движи.

Тоа е една од најсилните практични придобивки на анонимизацијата во пакет. Прави повеќе од задоволување на GDPR. Целосно ги отстранува прекуграничните пречки.

За повеќе информации за ограничувањата на трансфер, погледнете го водичот за ограничување на намената на GDPR.

Што да му дадете на DPO

При поднесување чист набор за обука за одобрување од DPO, приложете ги овие пет ставки:

  1. Опис на изворот. Каков беше оригиналниот набор на податоци? Која беше намената на собирањето? Кои лични категории содржеше?
  2. Конфигурација за анонимизација. Кои типови на ентитети беа откривани и заменети? Кој метод беше применет?
  3. Метаподатоци за обработка. Броеви на ентитети по запис, оценки на доверба, вкупно обработени записи.
  4. Проценка на резидуален ризик. Која е веројатноста дека поединецот може да биде повторно идентификуван? За анонимизација со методот Replace со 285+ типови на ентитети на структуриран текст, оваа веројатност е многу ниска.
  5. Планирана употреба. Кој модел ќе биде обучуван? Која е намената на обуката?

Обработката во пакет автоматски ги обезбедува ставките 2 и 3. Ставките 1, 4 и 5 доаѓаат од научникот за податоци.

Погледнете го batch API на anonym.legal за тоа како метаподатоците за обработка се враќаат со секоја задача.

Што добивате

GDPR-усогласени ML набори се постижливи без прилагодени скрипти, без повеќедневни одложувања и без губење на квалитетот на моделот.

Методот Replace ги задржува природните јазични карактеристики кои се важни за обука на NLP. Ги отстранува личните детали кои создаваат GDPR ризик.

45 минути обработка во пакет е разликата помеѓу одложена проверка на усогласеноста и едноставно одобрување од DPO.

Извори

Подготвени да ги заштитите вашите податоци?

Започнете со анонимизација на PII со 285+ типови на ентитети на 48 јазици.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.