anonym.legal

By · Last updated 2026-05-27

Povratak na blogTehnička

GDPR anonimizacija podataka za ML treniranje

GDPR ogranicava koriscenje licnih podataka za ML treniranje izvan originalne svrhe prikupljanja. Naucnici podataka koji se oslanjaju na ad-hoc Python skripte stvaraju ozbiljne komplijans propuste koji DPO ne moze da sertifikuje.

May 27, 20267 min čitanja
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Jedna skripta nije dovoljna

Svaki tim naucnika podataka napisao je nesto ovako:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

Ovo zamenjuje adrese elektronske poste. Samo to. Skup podataka i dalje sadrzi imena, brojeve telefona i medicinske ID-ove. I dalje nece proci GDPR reviziju.

Jaz izmedju "anonimizovao sam mejlove" i "ovaj skup podataka je GDPR-kompatibilan" je velik. Timovi ga stalno potcenjuju.

Zasto GDPR ogranicava upotrebu podataka za ML treniranje

GDPR clan 5(1)(b) je kljucno pravilo. Zove se nacelo ogranicenja svrhe. Licni podaci mogu se koristiti samo u svrhu za koju su prikupljeni.

Porudzbine kupaca prikupljene su radi ispunjenja narudzbina. Ne za treniranje modela preporuka. Zdravstveni kartoni prikupljeni su radi lecenja. Ne za treniranje modela ponovnog prijema. Odgovori na ankete prikupljeni su radi povratnih informacija o proizvodu. Ne za treniranje klasifikatora sentimenta.

Da bi koristili te podatke za ML treniranje, timu je potrebna jedna od tri stvari:

  1. Eksplicitna saglasnost svake osobe za ML svrhu - tesko je dobiti, cesto nemoguce retroaktivno
  2. Procena legitimnog interesa koja pokazuje da je ML upotreba kompatibilna - pravno neizvesno, zavisno od DPA
  3. Anonimizacija - zamena ili uklanjanje licnih detalja tako da skup podataka vise nije licni prema GDPR-u

Pravna anonimizacija pruza najvecu pravnu sigurnost. Izazov je uraditi to ispravno svaki put.

Problem sa jednokratnim skriptama

Timovi koji pisu novu Python skriptu za svaki skup podataka stvaraju kumulativne probleme.

Nepotpuna pokrivenost. Skripta napravljena za jednu semu propusta nova polja. Kolona klinickih beleska dodata pre sest meseci? Nije u regexi. Polje srednjeg imena? Skripta obradjuje samo obrasce prvog i prezimena.

Bez doslednosti. Skup podataka A obradjen je skriptom_v1. Skup podataka B koristio je skriptu_v3. Skup podataka C obradio je drugi clan tima. Objedinjeni skup podataka za treniranje ima tri razlicite primenjene metode. DPO to ne moze da sertifikuje.

Bez revizijskog traga. Skripta je pokrenuta. Sta je promenila? Koji entiteti su pronadjeni? Bez zapisa o obradi, komplijans je nemoguc. Kada DPA revizor pita "kako znate da je ovaj skup podataka za treniranje cistu?", odgovor "pokrenuli smo Python skriptu" nije dovoljan.

Zastarelost modela. Regex obrasci koji su radili u 2023. propustaju nove formate identifikatora iz 2024. Skripte se ne azuriraju same.

Pregled grupne obrade

Healthcare AI tim treba da anonimizuje 8.000 pacijentskih kartona. Americki tim treba pristup iz EU kancelarije. Primenjuje se Schrems II - podaci poreklom iz EU ne mogu ici na americku infrastrukturu bez odgovarajucih zastita.

Tradicionalni put: Inzenjer podataka pise prilagodljenu skriptu. Dva do tri dana razvoja. Jedan do dva dana DPO pregleda. Jedan dan iteracije. Ukupno: cetiri do sest dana. ML projekat kasni.

Put grupne obrade:

  1. Izvezite 8.000 zapisa kao CSV
  2. Otpremite na grupnu obradu
  3. Postavite tipove entiteta: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Izaberite metodu: Replace (zamenjuje realisticnim sintetickim vrednostima radi ocuvanja strukture)
  5. Obrada: 45 minuta za 8.000 zapisa
  6. Preuzmite cisti CSV
  7. DPO pregledava metapodatke obrade - entiteti pronadjeni po zapisu, primenjene metode: 2 sata
  8. DPO odobrava. Transfer se nastavlja.

Ukupno vreme: 45 minuta plus 2 sata DPO pregleda. Umesto cetiri do sest dana.

Pogledajte vodic za treniranje prema EU AI aktu za nacin na koji isti koraci ispunjavaju obaveze iz clana 10.

Replace vs. Redact za ML upotrebu

Metoda anonimizacije je vazna za kvalitet modela.

Redact zamenjuje PII tokenom kao sto je [REDACTED]. Ovo funkcionise za modele detekcije PII-a. Za druge zadatke - sentiment, klasifikacija, preporuka - to steti. Model uci da je [REDACTED] poseban token. Ne moze da uci iz prirodne distribucije imena i vrednosti.

Replace zamenjuje "Jovan Jovanovic" sa "David Chen." Zamenjuje "jjovanovic@kompanija.com" sa "dchen@synthetic.com." Struktura ostaje netaknuta. Plasiranje entiteta, obrasci ko-pojavljivanja, tok recenice - sve je sacuvano. Model uci iz realisticnog konteksta.

Za skupove podataka za ML treniranje, Replace je pravi izbor. Model ne uci lazne vrednosti. On uci obrasce oko njih. To je ono sto je vazno.

Schrems II i prekogranicni prenosi

Presuda Schrems II (CJEU, 2020) ponistavila je EU-US Privacy Shield. Podaci poreklom iz EU ne mogu ici na americku ML infrastrukturu - AWS US-East, GCP US-Central - bez odgovarajucih zastita prenosa.

Tri glavne zastite su:

  • Standardne ugovorne klauzule sa procenom uticaja prenosa
  • Obavezujuca korporativna pravila za prenose unutar grupe kompanija
  • Derogacija za anonimizirane zapise - pravilno anonimizirani fajlovi vise nisu licni prema GDPR-u i izuzeti su od pravila prenosa

Za timove koji koriste americku infrastrukturu sa skupovima podataka poreklom iz EU, pravilna anonimizacija uklanja Schrems II problem. Cistit skup podataka nije licni. Moze se slobodno prenositi.

Ovo je jedna od najjacih prakticnih prednosti grupne anonimizacije. Ona ne samo da zadovoljava GDPR. Ona potpuno uklanja prepreke prekogranicnog prenosa.

Za vise informacija o ogranicenjima prenosa, pogledajte vodic o ogranicenju svrhe GDPR-a.

Sta predati DPO-u

Prilikomdostavljanja cistog skupa podataka za treniranje na odobrenje DPO-u, ukljucite ovih pet stavki:

  1. Opis izvora. Koji je bio originalni skup podataka? Koja je bila svrha prikupljanja? Koje licne kategorije je sadrzao?
  2. Konfiguracija anonimizacije. Koji tipovi entiteta su detektovani i zamenjeni? Koja metoda je primenjena?
  3. Metapodaci obrade. Broj entiteta po zapisu, skorovi pouzdanosti, ukupan broj obradjenih zapisa.
  4. Procena rezidualnog rizika. Kolika je verovatnoca da bi neka osoba mogla biti ponovo identifikovana? Za anonimizaciju metodom Replace sa 285+ tipova entiteta na strukturiranom tekstu, ova verovatnoca je veoma niska.
  5. Nameravana upotreba. Koji model ce biti treniran? Koja je svrha treniranja?

Grupna obrada automatski pruza stavke 2 i 3. Stavke 1, 4 i 5 dolaze od naucnika podataka.

Pogledajte anonym.legal batch API za nacin na koji se metapodaci obrade vracaju sa svakim poslom.

Sta dobijate

GDPR-kompatibilni ML skupovi podataka su ostvarivi bez prilagodljenih skripti, bez visednevnih kascnjenja i bez gubitka kvaliteta modela.

Metoda Replace cuva svojstva prirodnog jezika koja su vazna za NLP treniranje. Ona uklanja licne detalje koji stvaraju GDPR rizik.

45 minuta grupne obrade je razlika izmedju odlozene revizije komplijansa i jednostavnog odobrenja DPO-a.

Izvori

Spremni da zaštitite svoje podatke?

Počnite sa anonimizacijom PII sa 285+ tipova entiteta na 48 jezika.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.