Endurtakanlegt friðhelgi: Hvers vegna vélanámsteymi þurfa forskilgreiningar, ekki bara skjöl

DPO-yfirmaðurinn samþykkti nafnlægingaráætlunina. Hún nær yfir fjóra þætti: nöfn, netföng, símanúmer og fæðingardagar. Aðferðin er Skipta Um. Áætlunin er fjórar blaðsíður og lifir í samræmisvíkiinu.

Tólf gagnafræðingar lesa hana við upphaf. Sérhver setur upp verkfærið sjálfstætt. Sumir bæta við þjóðarauðkennum. Sumir bæta við IP-tölum. Sumir skipta yfir í Þurrka. Þremur mánuðum síðar eru sett ekki samræmd.

CNIL skoðaði nokkrar gervigreindarfyrirtæki árið 2024. Vandinn: óviðeigandi notkun persónuupplýsinga í líkanasettum. Þeir spurðu ekki bara hvort nafnlæging hafi átt sér stað. Þeir spurðu hversu samkvæmt það hafi verið beitt.

Skjöl eru nauðsynleg. Þau eru ekki nóg. Lagfæringin er forskilgreiningin.

Hvers vegna líkanagagnasett vélanáms þurfa eigin stillingar

Smíði líkanagagnasetta hefur einstaka þarfir. Almennt skjalarnafnlæging deilir þeim ekki.

Skipta Um, ekki Þurrka. Líkön þjálfuð á texta þar sem nöfn verða [ÞURRKAÐ] læra þann tákn sem staðsetningarmerki nafns. Þetta skaðar líkanið. Skipta Um skiptir "Jón Jónsson" út fyrir "Davíð Kristján." Líkanið sér raunveruleg nafnamynstur. Það sér ekki grimunarmerki.

Sama ferli fyrir allar skrár. Gagnasett þar sem 70% nafna er skipt og 30% er [ÞURRKAÐ] sendir blandaðar boðsendingar. Sérhver skrá verður að fara í gegnum sömu skref.

Sama einingalista. Ef gagnasett geymir heilsugögn en fjarlægar nöfn en lætur fæðingardaga vera í sumum skrám skapar holunar. Allir tólf gagnafræðingarnir verða að fjarlægja sömu tegundir.

Engin of-fjarlæging. Að fjarlægja dagsetningar sem eru tímastimplar — ekki fæðingardagar — dregur úr gæðum gagnasetts án samræmisávinnings. Samþykkt forskilgreining segir nákvæmlega hvaða hluti á að fjarlægja.

Endurtakanlegt úttak. Ef gagnasett verður að vera keyrt aftur — segjum, eftir að einingategund sem vantar finnst — gefur forskilgreiningin sama niðurstaða í hvert skipti. Sérsniðnar stillingar gera það ekki.

Vandamálið með tólf gagnafræðinga

Evrópskur FinTech ML-teymi notar gagnasett úr viðskiptavinaskrám. DPO-yfirmaðurinn samþykkti tilganginn — svikagreining — með einni reglu: öll nöfn viðskiptavina, netföng, símanúmer og greiðsluauðkenni verða að vera skipt áður en líkanavinnan hefst.

Án forskilgreininga:

Einstaklingur 1 fjarlægir nöfn, netföng og símanúmer — en vanrækir greiðsluauðkenni
Einstaklingur 2 hefur greiðsluauðkenni með en notar Þurrka, ekki Skipta Um
Einstaklingur 3 fylgir verklagsreglunskjalinu nákvæmlega
Einstaklingar 4–12 eru mismunandi

Sameinað gagnasett er að hluta til ekki í samræmi og að hluta til of unnið. DPO-yfirmaður getur ekki vottað það.

Með DPO-samþykktri forskilgreiningu:

DPO-yfirmaðurinn skapar "ML Þróun — Svikagreining" með nákvæmum einingategundum og Skipta Um aðferðinni
Forskilgreiningin fer til allra tólf einstaklinga með einni reglu: notaðu þetta fyrir allt gagnasettavinnu
Enginn getur breytt forskilgreiningunni án samþykkis DPO-yfirmanns

Sérhver einstaklingur framleiðir nú sama úttak. Sameinað gagnasett er samræmt. Árleg gervigreindarendurskoðun fer í gegn með núll niðurstöðum. Fyrra árið var með þrjár niðurstöður vegna ósamræmdrar gagnasettavinnu.

Uppfært fyrir 2026

Eiríkslög um gervigreind (EU AI Act) tóku að fullu gildi í ágúst 2024. Þau bæta við reglum um gervigreindarkerfi sem nota persónuupplýsingar fyrir líkanavinnu. Gervigreindarkerfi með mikla áhættu verða að skrá gagnasett sín, þar á meðal hvaða nafnlæging var beitt.

GDPR 5. gr.(1)(b) — markmiðsafmarkunarreglan — bannar notkun persónuupplýsinga án skýrrar lagalegrar grundvallar. CNIL-málin 2024 einblíndu á þessa glufu: upplýsingar safnaðar fyrir eina þjónustu notaðar í líkanavinnu án gilts grundvallar eða nafnlægingar.

Forskilgreiningar hjálpa til við að fullnægja báðum settum reglna:

Forskilgreiningarnafn og stillingar: skjalaða aðferðin
Vinnsluskrár: sönnun um að aðferðin var notuð
DPO-samþykki: skráð samþykki á stillingum

Þetta skapar endurskoðunarslóðina sem báðar lög krefjast. Sjá leiðsögn um þjálfunargögn og ESB-gervigreindarlögin til að fá nákvæmar upplýsingar um 10. gr. skyldur.

Stillingar forskilgreiningar fyrir NLP-líkanagagnasett

Tegundir til að hafa með í flestum NLP-líkanagagnasettum:

EINSTAKLINGUR — Skipta um með svipuðum nöfnum
NETFANG — Skipta um með tilbúnum netföngum
SÍMANÚMER — Skipta um með tilbúnum númerum
KREDITKORT / IBAN — Skipta Um eða Þurrka
STAÐSETNING — Skipta um með svipuðum stöðum ef staðsetning skiptir máli; Þurrka ef ekki
FÆÐINGARDAGUR — Þurrka; aldursflokkun er oft nauðsynleg

Tegundir sem oft eru utanvelts:

Almennar dagsetningar — tímastimplar hjálpa tímabundnum líkönum
Nöfn stofnana — hjálpa líkönum sem nefna einingar
Vefslóðir — hjálpa hlekk- og tilvísanarlíkönum

ML-yfirmaðurinn og DPO-yfirmaðurinn setja þessar reglur í samþykktu forskilgreininguna. Teymisaðilar beita henni. Þeir gera engar stillingaákvarðanir.

Forskilgreiningar sem stofnanarleg minni

Fyrir forskilgreiningar. Rétt einingastillingar lifðu í huga þriggja gagnafræðinga. Þeir höfðu unnið sig í gegnum samræmisyfirferðina. Tveir fóru í Q3. Þekkinguna fór með þeim.

Eftir forskilgreiningar. Stillingarnar lifa í "ML Þróun — Viðskiptavinaskrár v2.1." Útgáfaskráin sýnir hvenær hún var gerð, hvem samþykkti hana og hvað breyttist frá v2.0. Nýir teymisaðilar nota forskilgreininguna og fá alla þekkinguna sem er innbyggð í hana.

Útgáfa 2.1 bætti við IBAN-greiningu eftir að yfirferð fann hana vanrækta. Útgáfa 2.0 var samþykkt í febrúar 2025. Skráin er fullkomin.

Sjá GDPR ML þjálfunar nafnlægingarhandbók til að fá upplýsingar um hvernig vinnsluskrár og DPO-yfirferðarflæði virka.

Forskilgreiningar vs. CNIL-mynstrið

CNIL-gervigreindarmálin 2024 settu skýrt mynstur. Þeir spyrja ekki bara hvað var fjarlægt heldur hvernig það var stjórnað. Samnýtt forskilgreining með DPO-samþykkiskrá og vinnsluskrár svarar þessu beint.

Sérsniddð stillingar gera það ekki. Sama glufa er til í öðrum ESB-DPA-málum sem fylgja CNIL-rök. Sjá CNIL GDPR gervigreindarsamræmishandbók til að fá frekari upplýsingar um CNIL-nálgunina á gervigreind.

Niðurstaða

Skjöl segja teymisaðilum hvað þeir eiga að gera. Forskilgreiningar gera það auðvelt — og knýjanlegt — að gera það á sama hátt í hvert skipti.

Fyrir ML-líkanagagnasett er samræmi bæði lagaleg og tæknileg þörf. Forskilgreiningin uppfyllir báðar samtímis.

DPA-yfirvaldin sem skoða gervigreindarstarfrækslu vilja sönnunargögn um einslæga nafnlægingu. Forskilgreining beitt á sama hátt yfir alla gagnasettavinnu er skýrasta sönnunin sem þú getur gefið þeim.

Heimildir

Tengdar Greinar

Tæknilegt

Ertu tilbúinn að vernda gögnin þín?

Byrjaðu að anonymiza PII með 285+ gerðum í 48 tungumálum.

Byrjaðu Ókeypis Prufu Skoða Eiginleika

Endurtakanlegt friðhelgi: Forskilgreiningar fyrir vélanám

Endurtakanlegt friðhelgi: Hvers vegna vélanámsteymi þurfa forskilgreiningar, ekki bara skjöl

Hvers vegna líkanagagnasett vélanáms þurfa eigin stillingar

Vandamálið með tólf gagnafræðinga

Stillingar forskilgreiningar fyrir NLP-líkanagagnasett

Forskilgreiningar sem stofnanarleg minni

Forskilgreiningar vs. CNIL-mynstrið

Niðurstaða

Heimildir

Tengdar Greinar

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ertu tilbúinn að vernda gögnin þín?

Endurtakanlegt friðhelgi: Forskilgreiningar fyrir vélanám

Endurtakanlegt friðhelgi: Hvers vegna vélanámsteymi þurfa forskilgreiningar, ekki bara skjöl

Hvers vegna líkanagagnasett vélanáms þurfa eigin stillingar

Vandamálið með tólf gagnafræðinga

GDPR og gervigreindarlagið

Stillingar forskilgreiningar fyrir NLP-líkanagagnasett

Forskilgreiningar sem stofnanarleg minni

Forskilgreiningar vs. CNIL-mynstrið

Niðurstaða

Heimildir

Tengdar Greinar

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

Ertu tilbúinn að vernda gögnin þín?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow