By · Last updated 2026-06-03

Rudi kwa BlogKitaalamu

Faragha Inayoweza Kurudiwa: Mipangilio ya ML

Kusiriwa kwa data ya mafunzo ya ML lazima kuwe thabiti na kinachoweza kurudiwa. Ikiwa wanasayansi wa data A na B wanatumia aina tofauti za kitengo, seti za data za mafunzo ni.

June 3, 20266 dakika kusoma
ML training datareproducible privacyGDPR AI ActCNIL enforcementdata science compliance

Faragha Inayoweza Kurudiwa: Kwa Nini Timu za ML Zinahitaji Mipangilio, Si Hati Peke Yake

DPO alipitisha mpango wa kusiriwa. Unashughulikia vitu vinne: majina, barua pepe, nambari za simu, na tarehe za kuzaliwa. Njia ni Badilisha. Mpango una kurasa nne na unaishi kwenye wiki ya utiifu.

Wanasayansi 12 wa data waliusoma wakati wa kikao cha kuanzisha. Kila mmoja anasanidi zana peke yake. Wengine wanaongeza vitambulisho vya kitaifa. Wengine wanaongeza anwani za IP. Wengine wanabadilisha hadi Futa. Miezi mitatu baadaye, seti hazina uthabiti.

CNIL ilikagua makampuni kadhaa ya AI mwaka 2024. Suala: matumizi yasiyofaa ya maelezo ya kibinafsi katika seti za mfano. Hawakuuliza tu ikiwa kusiriwa kulitokea. Waliuliza jinsi kilivyotumika kwa uthabiti.

Hati zinahitajika. Hazitoshi. Suluhu ni mipangilio.

Kwa Nini Seti za Mfano wa ML Zinahitaji Usanidi Wao

Kujenga seti za mfano kuna mahitaji ya kipekee. Kusiriwa kwa hati za jumla hakushiriki nao.

Badilisha, si Futa. Mifano iliyofunzwa kwenye maandishi ambapo majina yanakuwa [REDACTED] hujifunza tokeni hiyo kama alama ya nafasi ya jina. Hii inadhuru mfano. Badilisha hubadilisha "John Smith" na "David Chen." Mfano unaona mifumo ya majina halisi. Hauoni tokeni ya kizuizi.

Mchakato sawa kwa rekodi zote. Seti ambapo asilimia 70 ya majina yanabadilishwa na asilimia 30 ni [REDACTED] inatuma ishara mchanganyiko. Kila rekodi lazima ipite hatua zile zile.

Orodha ile ile ya kitengo. Ikiwa seti ina maelezo ya afya, kuondoa majina lakini kuacha tarehe za kuzaliwa katika rekodi fulani kunaunda mapengo. Wanasayansi wote 12 wa data lazima waondoe aina zile zile.

Usiondoe kupita kiasi. Kuondoa tarehe ambazo ni alama za wakati - si tarehe za kuzaliwa - hupunguza ubora wa seti bila faida ya utiifu. Mipangilio iliyoidhinishwa inasema haswa vitu gani vya kuondoa.

Matokeo yanayoweza kurudiwa. Ikiwa seti lazima ipigiwe tena - kwa mfano, baada ya aina ya kitengo iliyokosekana kugunduliwa - mipangilio inatoa matokeo yale yale kila wakati. Usanidi wa kipekee hauitoi.

Tatizo la Wanasayansi Kumi na Wawili wa Data

Timu ya ML ya kifedha barani Ulaya inatumia seti kutoka kwa kumbukumbu za wateja. DPO alipitisha madhumuni - ugunduzi wa ulaghai - na kanuni moja: majina yote ya wateja, barua pepe, nambari za simu, na vitambulisho vya malipo lazima vibadilishwe kabla ya kazi ya mfano kuanza.

Bila mipangilio:

  • Mtu 1 anaondoa majina, barua pepe, na nambari za simu - lakini anakosa vitambulisho vya malipo
  • Mtu 2 anajumuisha vitambulisho vya malipo lakini anatumia Futa, si Badilisha
  • Mtu 3 anafuata hati ya mpango haswa
  • Watu 4-12 wanatofautiana

Seti iliyounganishwa inakuwa sehemu isiyolingana na sheria na sehemu iliyosindikwa kupita kiasi. DPO hawezi kuisaidia.

Na mipangilio iliyoidhinishwa na DPO:

  • DPO anatengeneza "ML Dev - Ugunduzi wa Ulaghai" na aina haswa za kitengo na njia ya Badilisha
  • Mipangilio inaenda kwa watu wote kumi na wawili na kanuni moja: tumia hii kwa kazi yote ya seti
  • Hakuna mtu anayeweza kubadilisha mipangilio bila idhini ya DPO

Kila mtu sasa anazalisha matokeo yale yale. Seti iliyounganishwa ni thabiti. Ukaguzi wa kila mwaka wa AI hupita bila matokeo. Mwaka uliopita ulikuwa na matokeo matatu kutoka kwa kazi ya seti isiyothabiti.

GDPR na Sheria ya AI

Imesasishwa kwa 2026

Sheria ya AI ya EU ilianza kutumika kikamilifu Agosti 2024. Inaongeza kanuni kwa mifumo ya AI inayotumia maelezo ya kibinafsi kwa kazi ya mfano. Mifumo ya AI ya hatari ya juu lazima iandike seti zao, ikijumuisha kusiriwa kulikotumiwa.

Ibara ya 5(1)(b) ya GDPR - kanuni ya kikwazo cha madhumuni - inazuia matumizi ya maelezo ya kibinafsi bila msingi wazi wa kisheria. Kesi za CNIL za 2024 zilizingatia pengo hili: maelezo yaliyokusanywa kwa huduma moja yaliyotumiwa kwa kazi ya mfano bila msingi halali au kusiriwa.

Mipangilio husaidia kutimiza seti zote mbili za kanuni:

  • Jina na usanidi wa mipangilio: njia iliyoandikwa
  • Rekodi za usindikaji: uthibitisho kwamba njia ilitumika
  • Idhini ya DPO: sahihi ya kurekodiwa kwenye usanidi

Hii inatengeneza njia ya ukaguzi ambayo sheria zote mbili zinahitaji. Kwa wajibu wa Ibara ya 10 kwa undani, angalia mwongozo wa data ya mafunzo wa Sheria ya AI ya EU.

Usanidi wa Mipangilio kwa Seti za Mfano wa NLP

Aina za kujumuisha katika seti nyingi za mfano wa NLP:

  • PERSON - Badilisha na majina yanayofanana
  • EMAIL_ADDRESS - Badilisha na anwani za awali
  • PHONE_NUMBER - Badilisha na nambari za awali
  • CREDIT_CARD / IBAN - Badilisha au Futa
  • LOCATION - Badilisha na maeneo yanayofanana ikiwa mahali pa kijiografia ni muhimu; Futa ikiwa si hivyo
  • DATE_OF_BIRTH - Futa; upangaji wa umri mara nyingi unahitajika

Aina mara nyingi zinazoachwa nje:

  • Tarehe za jumla - alama za wakati husaidia mifano ya muda
  • Majina ya shirika - husaidia mifano ya kitengo chenye jina
  • URL - husaidia mifano ya kiungo na rejea

Mkuu wa ML na DPO huweka kanuni hizi katika mipangilio iliyoidhinishwa. Wanachama wa timu wazitumie. Hawafanyi uchaguzi wa usanidi.

Mipangilio kama Kumbukumbu ya Kimataasisi

Kabla ya mipangilio. Usanidi sahihi wa kitengo uliishi akilini mwa wanasayansi watatu wa data. Walikuwa wamepitia ukaguzi wa utiifu. Wawili waliondoka Q3. Maarifa yalikwenda nao.

Baada ya mipangilio. Usanidi unaishi katika "ML Dev - Rekodi za Wateja v2.1." Rekodi ya toleo inaonyesha ilipofanywa, nani aliyeisaidia, na kilichobadilika kutoka v2.0. Wanachama wapya wa timu hutumia mipangilio na kupata maarifa yote yaliyojengwa ndani yake.

Toleo 2.1 liliongeza ugunduzi wa IBAN baada ya ukaguzi kuugundua ukiwa umekosekana. Toleo 2.0 liliidhinishwa Februari 2025. Rekodi ni kamili.

Kwa jinsi rekodi za usindikaji na mtiririko wa ukaguzi wa DPO unavyofanya kazi, angalia mwongozo wa kusiriwa kwa data ya mafunzo ya ML ya GDPR.

Mipangilio dhidi ya Mfumo wa CNIL

Kesi za AI za CNIL za 2024 ziliweka mfumo wazi. Wanauliza si tu kilichoondolewa bali jinsi kilivyosimamiwa. Mipangilio iliyoshirikiwa na rekodi ya idhini ya DPO na rekodi za usindikaji hujibu hili moja kwa moja.

Usanidi wa kipekee haujibu. Pengo lile lile lipo katika kesi nyingine za EU DPA zinazofuata mantiki ya CNIL. Kwa maelezo zaidi ya mbinu ya CNIL kwa AI, angalia mwongozo wa utiifu wa AI wa GDPR wa CNIL Ufaransa.

Hitimisho

Hati zinamwambia wanachama wa timu wanapaswa kufanya nini. Mipangilio inafanya iwe rahisi - na inayoweza kutekelezwa - kuifanya kwa njia ile ile kila wakati.

Kwa seti za mfano wa ML, uthabiti ni haja ya kisheria na ya kiufundi. Mipangilio inakidhi zote mbili kwa wakati mmoja.

DPA zinazotazama mazoea ya AI zinataka ushahidi wa kusiriwa sawa. Mipangilio inayotumika kwa njia ile ile kote kwenye kazi yote ya seti ndiyo uthibitisho wazi zaidi unaoeza kuwapa.

Vyanzo

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.