By · Last updated 2026-06-03

Til baka á BloggTæknilegt

Endurtakanlegt friðhelgi: Forskilgreiningar fyrir vélanám

Nafnlæging þjálfunargagna vélanáms verður að vera samræmd og endurtakanleg. Ef gagnafræðingur A og B beita mismunandi einingategundum eru þjálfunargagnasett.

June 3, 20266 mín lestur
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Endurtakanlegt friðhelgi: Hvers vegna vélanámsteymi þurfa forskilgreiningar, ekki bara skjöl

DPO-yfirmaðurinn samþykkti nafnlægingaráætlunina. Hún nær yfir fjóra þætti: nöfn, netföng, símanúmer og fæðingardagar. Aðferðin er Skipta Um. Áætlunin er fjórar blaðsíður og lifir í samræmisvíkiinu.

Tólf gagnafræðingar lesa hana við upphaf. Sérhver setur upp verkfærið sjálfstætt. Sumir bæta við þjóðarauðkennum. Sumir bæta við IP-tölum. Sumir skipta yfir í Þurrka. Þremur mánuðum síðar eru sett ekki samræmd.

CNIL skoðaði nokkrar gervigreindarfyrirtæki árið 2024. Vandinn: óviðeigandi notkun persónuupplýsinga í líkanasettum. Þeir spurðu ekki bara hvort nafnlæging hafi átt sér stað. Þeir spurðu hversu samkvæmt það hafi verið beitt.

Skjöl eru nauðsynleg. Þau eru ekki nóg. Lagfæringin er forskilgreiningin.

Hvers vegna líkanagagnasett vélanáms þurfa eigin stillingar

Smíði líkanagagnasetta hefur einstaka þarfir. Almennt skjalarnafnlæging deilir þeim ekki.

Skipta Um, ekki Þurrka. Líkön þjálfuð á texta þar sem nöfn verða [ÞURRKAÐ] læra þann tákn sem staðsetningarmerki nafns. Þetta skaðar líkanið. Skipta Um skiptir "Jón Jónsson" út fyrir "Davíð Kristján." Líkanið sér raunveruleg nafnamynstur. Það sér ekki grimunarmerki.

Sama ferli fyrir allar skrár. Gagnasett þar sem 70% nafna er skipt og 30% er [ÞURRKAÐ] sendir blandaðar boðsendingar. Sérhver skrá verður að fara í gegnum sömu skref.

Sama einingalista. Ef gagnasett geymir heilsugögn en fjarlægar nöfn en lætur fæðingardaga vera í sumum skrám skapar holunar. Allir tólf gagnafræðingarnir verða að fjarlægja sömu tegundir.

Engin of-fjarlæging. Að fjarlægja dagsetningar sem eru tímastimplar — ekki fæðingardagar — dregur úr gæðum gagnasetts án samræmisávinnings. Samþykkt forskilgreining segir nákvæmlega hvaða hluti á að fjarlægja.

Endurtakanlegt úttak. Ef gagnasett verður að vera keyrt aftur — segjum, eftir að einingategund sem vantar finnst — gefur forskilgreiningin sama niðurstaða í hvert skipti. Sérsniðnar stillingar gera það ekki.

Vandamálið með tólf gagnafræðinga

Evrópskur FinTech ML-teymi notar gagnasett úr viðskiptavinaskrám. DPO-yfirmaðurinn samþykkti tilganginn — svikagreining — með einni reglu: öll nöfn viðskiptavina, netföng, símanúmer og greiðsluauðkenni verða að vera skipt áður en líkanavinnan hefst.

Án forskilgreininga:

  • Einstaklingur 1 fjarlægir nöfn, netföng og símanúmer — en vanrækir greiðsluauðkenni
  • Einstaklingur 2 hefur greiðsluauðkenni með en notar Þurrka, ekki Skipta Um
  • Einstaklingur 3 fylgir verklagsreglunskjalinu nákvæmlega
  • Einstaklingar 4–12 eru mismunandi

Sameinað gagnasett er að hluta til ekki í samræmi og að hluta til of unnið. DPO-yfirmaður getur ekki vottað það.

Með DPO-samþykktri forskilgreiningu:

  • DPO-yfirmaðurinn skapar "ML Þróun — Svikagreining" með nákvæmum einingategundum og Skipta Um aðferðinni
  • Forskilgreiningin fer til allra tólf einstaklinga með einni reglu: notaðu þetta fyrir allt gagnasettavinnu
  • Enginn getur breytt forskilgreiningunni án samþykkis DPO-yfirmanns

Sérhver einstaklingur framleiðir nú sama úttak. Sameinað gagnasett er samræmt. Árleg gervigreindarendurskoðun fer í gegn með núll niðurstöðum. Fyrra árið var með þrjár niðurstöður vegna ósamræmdrar gagnasettavinnu.

GDPR og gervigreindarlagið

Uppfært fyrir 2026

Eiríkslög um gervigreind (EU AI Act) tóku að fullu gildi í ágúst 2024. Þau bæta við reglum um gervigreindarkerfi sem nota persónuupplýsingar fyrir líkanavinnu. Gervigreindarkerfi með mikla áhættu verða að skrá gagnasett sín, þar á meðal hvaða nafnlæging var beitt.

GDPR 5. gr.(1)(b) — markmiðsafmarkunarreglan — bannar notkun persónuupplýsinga án skýrrar lagalegrar grundvallar. CNIL-málin 2024 einblíndu á þessa glufu: upplýsingar safnaðar fyrir eina þjónustu notaðar í líkanavinnu án gilts grundvallar eða nafnlægingar.

Forskilgreiningar hjálpa til við að fullnægja báðum settum reglna:

  • Forskilgreiningarnafn og stillingar: skjalaða aðferðin
  • Vinnsluskrár: sönnun um að aðferðin var notuð
  • DPO-samþykki: skráð samþykki á stillingum

Þetta skapar endurskoðunarslóðina sem báðar lög krefjast. Sjá leiðsögn um þjálfunargögn og ESB-gervigreindarlögin til að fá nákvæmar upplýsingar um 10. gr. skyldur.

Stillingar forskilgreiningar fyrir NLP-líkanagagnasett

Tegundir til að hafa með í flestum NLP-líkanagagnasettum:

  • EINSTAKLINGUR — Skipta um með svipuðum nöfnum
  • NETFANG — Skipta um með tilbúnum netföngum
  • SÍMANÚMER — Skipta um með tilbúnum númerum
  • KREDITKORT / IBAN — Skipta Um eða Þurrka
  • STAÐSETNING — Skipta um með svipuðum stöðum ef staðsetning skiptir máli; Þurrka ef ekki
  • FÆÐINGARDAGUR — Þurrka; aldursflokkun er oft nauðsynleg

Tegundir sem oft eru utanvelts:

  • Almennar dagsetningar — tímastimplar hjálpa tímabundnum líkönum
  • Nöfn stofnana — hjálpa líkönum sem nefna einingar
  • Vefslóðir — hjálpa hlekk- og tilvísanarlíkönum

ML-yfirmaðurinn og DPO-yfirmaðurinn setja þessar reglur í samþykktu forskilgreininguna. Teymisaðilar beita henni. Þeir gera engar stillingaákvarðanir.

Forskilgreiningar sem stofnanarleg minni

Fyrir forskilgreiningar. Rétt einingastillingar lifðu í huga þriggja gagnafræðinga. Þeir höfðu unnið sig í gegnum samræmisyfirferðina. Tveir fóru í Q3. Þekkinguna fór með þeim.

Eftir forskilgreiningar. Stillingarnar lifa í "ML Þróun — Viðskiptavinaskrár v2.1." Útgáfaskráin sýnir hvenær hún var gerð, hvem samþykkti hana og hvað breyttist frá v2.0. Nýir teymisaðilar nota forskilgreininguna og fá alla þekkinguna sem er innbyggð í hana.

Útgáfa 2.1 bætti við IBAN-greiningu eftir að yfirferð fann hana vanrækta. Útgáfa 2.0 var samþykkt í febrúar 2025. Skráin er fullkomin.

Sjá GDPR ML þjálfunar nafnlægingarhandbók til að fá upplýsingar um hvernig vinnsluskrár og DPO-yfirferðarflæði virka.

Forskilgreiningar vs. CNIL-mynstrið

CNIL-gervigreindarmálin 2024 settu skýrt mynstur. Þeir spyrja ekki bara hvað var fjarlægt heldur hvernig það var stjórnað. Samnýtt forskilgreining með DPO-samþykkiskrá og vinnsluskrár svarar þessu beint.

Sérsniddð stillingar gera það ekki. Sama glufa er til í öðrum ESB-DPA-málum sem fylgja CNIL-rök. Sjá CNIL GDPR gervigreindarsamræmishandbók til að fá frekari upplýsingar um CNIL-nálgunina á gervigreind.

Niðurstaða

Skjöl segja teymisaðilum hvað þeir eiga að gera. Forskilgreiningar gera það auðvelt — og knýjanlegt — að gera það á sama hátt í hvert skipti.

Fyrir ML-líkanagagnasett er samræmi bæði lagaleg og tæknileg þörf. Forskilgreiningin uppfyllir báðar samtímis.

DPA-yfirvaldin sem skoða gervigreindarstarfrækslu vilja sönnunargögn um einslæga nafnlægingu. Forskilgreining beitt á sama hátt yfir alla gagnasettavinnu er skýrasta sönnunin sem þú getur gefið þeim.

Heimildir

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.