By · Last updated 2026-05-27

Til baka á BloggTæknilegt

GDPR og nafnleynd gagna fyrir vélnám

GDPR takmarkar notkun persónulegra gagna við þjálfun vélnámslíkana utan upprunalega tilgangs söfnunar. Gagnafræðiteymi sem reiða sig á handskrifaðar Python-skipanir skapa.

May 27, 20267 mín lestur
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Ein skrifta er ekki nóg

Hvert gagnafræðiteymi hefur skrifað eitthvað svona:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}', '[EMAIL]', text)

Þetta kemur í stað netfanga. Það er allt sem það gerir. Gagnasafnið inniheldur enn nöfn, símanúmer og sjúklingsnúmer. Það mun enn mistakast við GDPR-endurskoðun.

Bilið á milli "Ég gerði netföng nafnlæg" og "þetta gagnasafn er GDPR-samþykkt" er mikið. Teymi vanmeta það alltaf.

Af hverju takmarkar GDPR þjálfunarnotkun vélnáms

GDPR grein 5(1)(b) er lykilreglan. Hún kallast meginreglan um markmiðstakmörkun. Persónulegar skrár mega aðeins nota í þeim tilgangi sem þær voru safnaðar.

Pantanir viðskiptavina voru safnaðar til að uppfylla pantanir. Ekki til að þjálfa meðmælingarlíkan. Heilsufarsupplýsingar voru safnaðar til meðferðar. Ekki til að þjálfa líkan til að spá fyrir um endurinnlagningu. Könnunarsvör voru safnað til að fá endurgjöf um vörur. Ekki til að þjálfa tilfinningagreinara.

Til að nota þær skrár við þjálfun vélnáms þarf teymi eitt af þremur:

  1. Skýlægt samþykki hvers einstaklings fyrir vélnámstilganginn - erfitt að fá, oft ómögulegt aftur í tímann
  2. Mat á lögmætum hagsmunum sem sýnir að vélnámsnotkun sé samhæf - löglega óvíst, háð DPA
  3. Nafnleynd - að skipta út eða fjarlægja persónulegar upplýsingar svo gagnasafnið sé ekki lengur persónulegt samkvæmt GDPR

Nafnleynd gefur mesta löglegu vissu. Áskorunin er að gera það rétt í hvert skipti.

Vandinn við einstaka skriftur

Teymi sem skrifa nýja Python-skriftu fyrir hvert gagnasafn skapa vandamál sem safnast upp.

Ófullnægjandi umfang. Skrifta sem byggð er fyrir eitt skema missir af nýjum reitum. Klínískar athugasemdaraðir sem bætt var við fyrir sex mánuðum síðan? Ekki í reglulegar segðir. Millinafnareitur? Skriftan meðhöndlar aðeins mynstur fornafns og eftirnafns.

Engin samkvæmni. Gagnasafn A var unnið með script_v1. Gagnasafn B notaði script_v3. Gagnasafn C var unnið af öðrum teymismeðlim. Sameinað þjálfunarsett hefur þrjár mismunandi aðferðir notaðar. DPO getur ekki staðfest það.

Engin endurskoðunarslóð. Skriftan keyrði. Hvað breyttist? Hvaða einingar fundust? Án úrvinnslufrka er samræmi ómögulegt. Þegar DPA-endurskoðandi spyr "hvernig veistu að þetta þjálfunarsett er hreint?" þá er svarið "við keyrðum Python-skriftu" ekki nóg.

Líkanadrift. Regluleg segðarmynstur sem virkuðu árið 2023 missa af nýjum auðkennisformatnum frá 2024. Skriftur uppfæra sig ekki sjálfar.

Gangur í gegnum lotunnarvinnslu

Heilbrigðisþjónusta gervigreindarteymi þarf að gera 8.000 sjúklingaskrár nafnlægar. Bandaríska teymið þarf aðgang frá evrópskum skrifstofum. Schrems II á við - upprunalegar EU-skrár geta ekki farið til bandarískrar innviðabyggðar án viðeigandi verndar.

Hefðbundin leið: Gagnafræðingur skrifar sérsniðna skriftu. Tveir til þrír dagar þróunar. Einn til tveir dagar DPO-yfirferðar. Einn dagur endurtekninga. Samtals: fjórir til sex dagar. ML-verkefnið seinkast.

Leið lotunnarvinnslu:

  1. Flytja 8.000 skrárnar út sem CSV
  2. Hlaða upp í lotunnarvinnslu
  3. Stilla einingsgerðir: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Velja aðferð: Replace (kemur í stað raunverulegar tilbúnar gilda til að varðveita uppbyggingu)
  5. Vinna: 45 mínútur fyrir 8.000 skrár
  6. Hlaða niður hreina CSV
  7. DPO fer yfir úrvinnslu-lýsigögn - einingar fundnar á skrá, aðferðir notaðar: 2 klukkustundir
  8. DPO samþykkir. Flutningur heldur áfram.

Heildartími: 45 mínútur auk 2 klukkustunda DPO-yfirferðar. Í stað fjórir til sex daga.

Sjá leiðbeiningar um þjálfunargögn ESB-gervigreindar um hvernig sömu skref uppfylla skyldur greinar 10.

Replace vs. Redact fyrir vélnámsnotkun

Nafnleyndaragðferðin skiptir máli fyrir líkanagæði.

Redact kemur í stað PII með tákni eins og [REDACTED]. Þetta virkar fyrir PII-greinimódel. Fyrir önnur verkefni - tilfinningar, flokkun, meðmæli - skaðar það. Líkanið lærir að [REDACTED] er sérstakt tákn. Það getur ekki lært af náttúrulegri dreifingu nafna og gilda.

Replace skiptir "Jón Jónsson" út fyrir "Davíð Chen." Það skiptir "jsmith@company.com" út fyrir "dchen@synthetic.com." Uppbygging heldur sér. Einingsstaðsetning, meðmælamynstur, setningaflæði - allt varðveitt. Líkanið lærir af raunhæfum samhengi.

Fyrir vélnámsþjálfunarsett er Replace réttur kosturinn. Líkanið lærir ekki fölsk gildi. Það lærir mynstrin í kringum þau. Það er hvað skiptir máli.

Schrems II og þverþjóðlegir flutningar

Schrems II-dómurinn (CJEU, 2020) ógilt ESB-US Privacy Shield. Upprunalegar EU-skrár geta ekki farið til bandarísks vélnámsinnviða - AWS US-East, GCP US-Central - án viðeigandi flutningsverndar.

Helstu verndarráðstafanirnar þrjár eru:

  • Staðlaðir samningsákvæðir með mat á flutningsáhrifum
  • Bindandi fyrirtækjareglar fyrir flutning innan fyrirtækjahóps
  • Undanþága fyrir nafnlæg gögn - skrár sem gerðar eru réttilega nafnlægar eru ekki lengur persónulegar samkvæmt GDPR og undanþegnar flutningsreglum

Fyrir teymi sem nota bandaríska innviði með EU-upprunasett, fjarlægir nafnleynd Schrems II-vandann. Hrein gagnasafnið er ekki persónulegt. Það getur farið frjálslega.

Þetta er eitt af sterkustu hagnýtu kostum lotunarnafnleyndar. Það gerir meira en að uppfylla GDPR. Það fjarlægir þverþjóðlegar hömlur að fullu.

Fyrir frekari upplýsingar um flutningshömlur, sjá leiðbeiningar um takmarkanir GDPR-tilgangs.

Hvað á að gefa DPO

Þegar þjálfunarsett er sent til DPO-samþykkis, hafðu þessar fimm hlutir meðferðis:

  1. Upprunalýsing. Hvað var upprunalega gagnasafnið? Hvað var söfnunartilgangurinn? Hvaða persónulegar flokkar innihélt það?
  2. Nafnleyndastilling. Hvaða einingsgerðir voru greindar og skipt út? Hvaða aðferð var notuð?
  3. Úrvinnslu-lýsigögn. Einingstalningar á skrá, trúverðugleikastig, heildarfjöldi skráa sem unnið var.
  4. Mat á leifaáhættu. Hverjar eru líkurnar á að einhver einstaklingur gæti verið endurauðkenndur? Fyrir Replace-aðferðar-nafnleynd með 285+ einingsgerðum á skipulagðan texta er þessi líkur mjög lítil.
  5. Ætluð notkun. Hvaða líkan verður þjálfað? Hvað er þjálfunartilgangurinn?

Lotunnarvinnsla gefur hlutum 2 og 3 sjálfvirkt. Hlutir 1, 4 og 5 koma frá gagnafræðingnum.

Sjá anonym.legal lotuna API um hvernig úrvinnslu-lýsigögn eru skilað með hverri vinnslu.

Hvað þú færð

GDPR-samhæf vélnámssett eru náanleg án sérsniðinna skripta, án margra daga tafa og án þess að missa límanagæði.

Replace-aðferðin heldur í náttúrulegar málfræðieiginleika sem skipta máli fyrir NLP-þjálfun. Hún fjarlægir persónulegar upplýsingar sem skapar GDPR-áhættu.

45 mínútur af lotunnarvinnslu er munurinn á seinkuðu samræmisuppgjöri og einfaldri DPO-undirskrift.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.