By · Last updated 2026-06-04

Itzuli BlogeraTeknikoa

Pribatutasun Erreproduzgarria: ML Konfigurazioak

ML entrenamendu-datuen anonimizazioa koherentea eta erreproduzgarria izan behar da. A eta B datu-zientzialariek entitate-mota desberdinak aplikatzen badituzte, entrenamendu-datu-multzoak ez dira bateragarriak izango.

June 4, 20266 min irakurri
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Pribatutasun Erreproduzgarria: Zergatik ML Taldeek Konfigurazioak Behar Dituzten, Dokumentuak Soilik Ez

DPOak anonimizazio-plana onartu du. Lau elementu biltzen ditu: izenak, posta elektronikoak, telefono-zenbakiak eta jaiotze-datak. Metodoa Ordezkapena da. Plana lau orrialdekoa da eta betetze-wikian bizi da.

Hamabi datu-zientzialarik hasierako bilkuran irakurri dute. Bakoitzak tresna bere kabuz konfiguratzen du. Batzuek nortasun nazionaleko IDak gehitzen dituzte. Batzuek IP helbideak gehitzen dituzte. Batzuek Berredakziora aldatzen dute. Hiru hilabete beranduago, multzoak ez dira koherenteak.

CNILek 2024an hainbat AI enpresa egiaztatu ditu. Arazoa: modelo-multzoetan informazio pertsonalaren erabilera ez-egokia. Ez dute soilik anonimizazioa gertatu den galdetzen. Zein neurritan uniformeki aplikatu den galdetzen dute.

Dokumentuak behar dira. Ez dira nahikoa. Konponbidea konfigurazioa da.

Zergatik ML Modelo-Multzoek Beren Konfigurazioa Behar Duten

Modelo-multzoak eraikitzeak behar bereziak ditu. Dokumentu-anonimizazio orokorrak ez ditu partekatzen.

Ordeztu, ez Berredakzioa. [BERREDAKZIO] bihurtu diren izenak dituzten testuan entrenatutako modeloek token hori izen-posizio gisa ikasten dute. Horrek modeloa kaltetzen du. Ordezkapena "John Smith" "David Chen" bihurtzen du. Modeloak benetako izen-ereduak ikusten ditu. Ez du maskarako token bat ikusten.

Erregistro guztientzako prozesu bera. Izenen % 70 ordezkatu eta % 30 [BERREDAKZIO] den multzoak seinale mistoa bidaltzen du. Erregistro bakoitzak urrats berdinak jasan behar ditu.

Entitate-zerrenda bera. Multzoak osasun-xehetasunak baditu, izenak kentzen baina jaiotze-datak zenbait erregistroetan uzten arrakala sortzen du. Hamabi datu-zientzialariek guztiek mota berdinak kendu behar dituzte.

Ez gehiegi kendu. Denbora-markak diren datak - jaiotze-datak ez - kentzen lagin-kalitatea murrizten du betetze-irabazi gabe. Onartutako konfigurazioak zehazki zein elementu kendu behar diren esaten du.

Irteera errepikagarria. Multzo bat berriz exekutatu behar bada - adibidez, galdutako entitate-mota aurkitu ondoren - konfigurazioak emaitza bera ematen du aldiro. Ad-hoc konfigurazioak ez.

Hamabi Datu-Zientzialarien Arazoa

Europa-ko fintech ML talde batek bezero-erregistroetatik datorren multzoak erabiltzen ditu. DPOak helburua onartu du - iruzur-detekzioa - arau batekin: bezero guztien izenak, posta elektronikoak, telefono-zenbakiak eta ordainketa-IDak ordezkatu behar dira modelo-lana hasi aurretik.

Konfigurazio gabe:

    1. pertsonak izenak, posta elektronikoak eta telefono-zenbakiak kentzen ditu - baina ordainketa-IDak galtzen ditu
    1. pertsonak ordainketa-IDak biltzen ditu baina Berredakzioa erabiltzen du, Ordezkapena ez
    1. pertsonak plan-dokumentua zehazki jarraitzen du
  • 4-12. pertsonek aldatu egiten dute

Batutako multzoa partez ez-bateragarria eta partez gehiegi prozesatuta dago. DPO batek ezin du ziurtatu.

DPOak onartutako konfigurazioarekin:

  • DPOak "ML Garapena - Iruzur Detekzioa" sortzen du entitate-mota zehatzekin eta Ordezkapena metodoarekin
  • Konfigurazioa hamabi pertsonei bidaltzen zaie arau batekin: erabili hau multzo-lan guztirako
  • Inork ezin du konfigurazioa DPOaren onarpenik gabe aldatu

Pertsona bakoitzak orain irteera bera sortzen du. Batutako multzoa koherentea da. Urteko AI ikasketa zero aurkikuntzarekin gainditzen da. Aurreko urteak hiru aurkikuntza izan zituen multzo-lanerako konfigurazio ez-koherenteagatik.

GDPR eta AI Legea

2026rako eguneratua

EBko AI Legea 2024ko abuztuan indarrean sartu zen osotasunean. Arau berriak gehitzen ditu modelo-lanerako informazio pertsonala erabiltzen duten AI sistementzat. Arrisku handiko AI sistemek beren multzoak dokumentatu behar dituzte, zer anonimizazio aplikatu zen barne.

GDPR 5(1)(b) Artikulua - helburu-muga araua - datu pertsonalak legezko oinarririk gabe erabiltzea galarazten du. CNILren 2024ko kasuek hutsune honetan zentratu ziren: zerbitzu batentzat bildutako datuak modelo-lanerako erabiltzen ziren oinarri baliozkorik edo anonimizaziorik gabe.

Konfigurazioak bi arau-multzo betetzen laguntzen dute:

  • Konfigurazio-izena eta konfigurazioa: dokumentatutako metodoa
  • Prozesatze-erregistroak: metodoa aplikatu dela frogatu
  • DPOaren onarpena: konfigurazioaren erregistratutako onarpena

Honek bi legeek eskatzen duten auditoria-ibilbidea sortzen du. Article 10 betebeharrak xehetasunez jakiteko, ikusi EU AI Lege entrenamendu-datu gida.

NLP Modelo-Multzoetarako Konfigurazioa

NLP modelo-multzo gehienetan sartu beharreko motak:

  • PERTSONA - Antzeko izenekin ordezkatu
  • POSTA_ELEKTRONIKO_HELBIDEA - Helbide sintetikoetan ordezkatu
  • TELEFONO_ZENBAKIA - Zenbaki sintetikoetan ordezkatu
  • KREDITU_TXARTELA / IBAN - Ordezkatu edo Berredakzioa
  • KOKAPENA - Antzeko lekuetan ordezkatu kokapena garrantzitsua bada; Berredakzioa ez bada
  • JAIOTZE_DATA - Berredakzioa; adin-taldekatzea sarritan beharrezkoa da

Sarritan kanpo utzitako motak:

  • Data orokorrak - denbora-markek eredu tenporalei laguntzen diete
  • Erakunde-izenak - entitate izendatutako ereduei laguntzen diete
  • URLak - esteka eta erreferentzia-ereduei laguntzen diete

ML buruak eta DPOak arau hauek onartutako konfigurazioan ezartzen dituzte. Taldekideek aplikatu egiten dute. Konfigurazio-aukerarik ez dute egiten.

Konfigurazioak Erakunde-Memoria Gisa

Konfigurazio aurretik. Entitate-konfigurazio egokia hiru datu-zientzialaren buruan bizi zen. Haiek betetze-berrikuspenetik igaro ziren. Biek Q3an utzi zuten. Ezagutza beraietan joan zen.

Konfigurazio ondoren. Konfigurazioa "ML Garapena - Bezero Erregistroak v2.1" artxiboan bizi da. Bertsio-erregistroak noiz sortu zen, nork onartu zuen eta v2.0tik zer aldatu zen erakusten du. Taldekide berriek konfigurazioa erabiltzen dute eta bertan integratutako ezagutza guztia jasotzen dute.

2.1 bertsioak IBAN detekzioa gehitu zuen berrikuspenak falta zela aurkitu ondoren. 2.0 bertsioa 2025eko otsailean onartu zen. Erregistroa osoa da.

Prozesatze-erregistroek eta DPO berrikuspena nola funtzionatzen duten jakiteko, ikusi GDPR ML entrenamendu-anonimizazio gida.

Konfigurazioak eta CNIL Eredua

CNILen 2024ko AI kasuek eredu argi bat ezarri dute. Zer kendu den soilik galdetzen dute eta nola gobernatua izan zen. DPOaren onarpena eta prozesatze-erregistroak dituen partekatutako konfigurazio batek zuzenean erantzuten dio honi.

Ad-hoc konfigurazio batek ez. Hutsune bera existitzen da CNIL logika jarraitzen duten beste EU DPA kasuetan. CNILren AI hurbilketari buruz gehiago jakiteko, ikusi CNIL GDPR AI betetze gida.

Ondorioa

Dokumentuek taldekideei zer egin esaten diete. Konfigurazioak erraza egiten dute - eta betearazgarria - aldiro berdin egitea.

ML modelo-multzoetarako, koherentzia legezko eta tekniko beharra da aldi berean. Konfigurazioak biak betetzen ditu aldi berean.

AI praktikak aztertzen ari diren DPAek anonimizazio uniformearen ebidentzia nahi dute. Multzo-lan guztietan berdin-berdin aplikatutako konfigurazio bat eman diezaiekeen froga argiena da.

Iturriak

Prest zure datuak babesteko?

Hasi PII anonimizatzen 285+ entitate mota 48 hizkuntzatan.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.