By · Last updated 2026-05-27

Rudi kwa BlogKitaalamu

Kutokuwa na Utambulisho wa Data ya Mafunzo ya ML Kulingana na GDPR

GDPR inazuia kutumia data ya kibinafsi kwa mafunzo ya ML zaidi ya madhumuni yaliyokusudiwa. Wanasayansi wa data wanaotegemea hati za Python za mara moja wanaunda.

May 27, 20267 dakika kusoma
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

Hati Moja Haitoshi

Kila timu ya sayansi ya data imeandika kitu kama hiki:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,}', '[EMAIL]', text)

Hii inabadilisha anwani za barua pepe. Hiyo ndiyo inachofanya. Seti ya data bado ina majina, nambari za simu, na vitambulisho vya matibabu. Itashindwa ukaguzi wa GDPR.

Pengo kati ya "nilitokuwa na utambulisho wa barua pepe" na "seti hii ya data inazingatia GDPR" ni kubwa. Timu zinakosa tathmini hii wakati wote.

Kwa Nini GDPR Inazuia Mafunzo ya ML

Ibara ya 5(1)(b) ya GDPR ndiyo kanuni kuu. Inaitwa kanuni ya ukomo wa madhumuni. Rekodi za kibinafsi zinaweza kutumika tu kwa madhumuni zilizokusanywa nazo.

Maagizo ya wateja yalikusanywa kwa utimilifu wa maagizo. Si kwa mafunzo ya modeli ya mapendekezo. Rekodi za afya zilikusanywa kwa matibabu. Si kwa mafunzo ya modeli ya kurudia kulazwa. Majibu ya uchunguzi yalikusanywa kwa maoni ya bidhaa. Si kwa mafunzo ya kiainishaji cha hisia.

Kutumia rekodi hizo kwa mafunzo ya ML, timu inahitaji moja kati ya mambo matatu:

  1. Idhini wazi kutoka kwa kila mtu kwa madhumuni ya ML - ngumu kupata, mara nyingi haiwezekani nyuma ya wakati
  2. Tathmini ya maslahi halali inayoonyesha matumizi ya ML yanafaa - kutokuwa na uhakika kisheria, inategemea DPA
  3. Kutokuwa na utambulisho - kubadilisha au kuondoa maelezo ya kibinafsi ili seti ya data isije kuwa ya kibinafsi chini ya GDPR

Kutokuwa na utambulisho sahihi kunatoa uhakika zaidi wa kisheria. Changamoto ni kuifanya vizuri kila wakati.

Tatizo la Hati za Mara Moja

Timu zinazoandika hati mpya ya Python kwa kila seti ya data zinaunda matatizo yanayozidi.

Uwezo usio kamili. Hati iliyojengwa kwa mchakato mmoja inakosa sehemu mpya. Safu ya maelezo ya kliniki iliyoongezwa miezi sita iliyopita? Haiko katika regex. Sehemu ya jina la kati? Hati inashughulikia mifumo ya jina la kwanza na la mwisho tu.

Kukosa uthabiti. Seti ya data A ilisindika kwa script_v1. Seti ya data B ilitumia script_v3. Seti ya data C ilisindika na mwanachama mwingine wa timu. Seti ya mafunzo iliyounganishwa ina mbinu tatu tofauti zilizotumika. DPO hawezi kuthibitisha.

Hakuna rekodi ya ukaguzi. Hati ilifanya kazi. Ilichobadilisha ni nini? Vitengo vipi vilipatikana? Bila rekodi za usindikaji, kufuata sheria haiwezekani. Wakati mkaguzi wa DPA anauliza "unajuaje seti hii ya mafunzo ni safi?", jibu "tulifanya hati ya Python" haitoshi.

Mabadiliko ya modeli. Mifumo ya Regex iliyofanya kazi mwaka 2023 inakosa muundo mpya wa vitambulisho kutoka 2024. Hati hazijisasishi.

Mwongozo wa Usindikaji wa Kundi

Timu ya AI ya afya inahitaji kutokuwa na utambulisho wa rekodi 8,000 za wagonjwa. Timu ya Marekani inahitaji upatikanaji kutoka ofisi ya EU. Schrems II inatumika - rekodi za asili ya EU haziwezi kwenda kwa miundombinu ya Marekani bila ulinzi sahihi.

Njia ya kawaida: Mhandisi wa data anaandika hati ya kawaida. Siku mbili hadi tatu za maendeleo. Siku moja hadi mbili za ukaguzi wa DPO. Siku moja ya marudio. Jumla: siku nne hadi sita. Mradi wa ML unachelewa.

Njia ya usindikaji wa kundi:

  1. Hamisha rekodi 8,000 kama CSV
  2. Pakia kwa usindikaji wa kundi
  3. Weka aina za vitengo: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN, MEDICAL_RECORD, DATE_OF_BIRTH, LOCATION
  4. Chagua njia: Badilisha (inabadilisha thamani za syntetiki za kweli ili kuhifadhi muundo)
  5. Sinda: dakika 45 kwa rekodi 8,000
  6. Pakua CSV safi
  7. DPO anakagua metadata ya usindikaji - vitengo vilivyopatikana kwa kila rekodi, mbinu zilizotumika: masaa 2
  8. DPO anaidhinisha. Uhamishaji unafanyika.

Jumla ya muda: dakika 45 pamoja na masaa 2 ya ukaguzi wa DPO. Badala ya siku nne hadi sita.

Angalia mwongozo wa mafunzo ya EU AI Act jinsi hatua hizo hizo zinavyotimiza wajibu wa Ibara ya 10.

Badilisha dhidi ya Ufutaji kwa Matumizi ya ML

Njia ya kutokuwa na utambulisho inaumia ubora wa modeli.

Futa inabadilisha PII na tokeni kama [REDACTED]. Hii inafanya kazi kwa modeli za kutambua PII. Kwa kazi nyingine - hisia, uainishaji, mapendekezo - inaumiza. Modeli inajifunza kwamba [REDACTED] ni tokeni maalum. Haiwezi kujifunza kutoka kwa usambazaji wa asili wa majina na thamani.

Badilisha inabadilisha "John Smith" na "David Chen." Inabadilisha "jsmith@company.com" na "dchen@synthetic.com." Muundo unabaki. Uwekaji wa vitengo, mifumo ya kuonekana pamoja, mtiririko wa sentensi - yote yanabaki. Modeli inajifunza kutoka kwa muktadha wa kweli.

Kwa seti za mafunzo ya ML, Badilisha ni chaguo sahihi. Modeli haijifunzi thamani bandia. Inajifunza mifumo inayozunguka. Hiyo ndiyo inayohusika.

Schrems II na Uhamishaji wa Mpakani

Uamuzi wa Schrems II (CJEU, 2020) ulibatilisha EU-US Privacy Shield. Rekodi za asili ya EU haziwezi kwenda kwa miundombinu ya ML ya Marekani - AWS US-East, GCP US-Central - bila ulinzi sahihi wa uhamishaji.

Ulinzi mitatu kuu ni:

  • Vifungu vya Kimkataba vya Kawaida na Tathmini ya Athari za Uhamishaji
  • Kanuni za Shirika la Lazima kwa uhamishaji ndani ya kikundi cha kampuni
  • Kutengwa kwa rekodi zisizo na utambulisho - faili zilizotokuwa na utambulisho vizuri haziko za kibinafsi chini ya GDPR na zimesamehewa kutoka sheria za uhamishaji

Kwa timu zinazotumia miundombinu ya Marekani na seti za asili ya EU, kutokuwa na utambulisho sahihi kunaondoa tatizo la Schrems II. Seti safi si ya kibinafsi. Inaweza kuhamia bila kikwazo.

Hii ni moja ya faida za vitendo zenye nguvu zaidi za kutokuwa na utambulisho wa kundi. Inafanya zaidi ya kutimiza GDPR. Inaondoa msuguano wa mpakani kabisa.

Kwa maelezo zaidi ya vizuizi vya uhamishaji, angalia mwongozo wa ukomo wa madhumuni ya GDPR.

Nini cha Kumpa DPO

Wakaati wa kuwasilisha seti safi ya mafunzo kwa idhini ya DPO, jumuisha vitu hivi vitano:

  1. Maelezo ya chanzo. Seti ya data ya asili ilikuwa nini? Madhumuni ya kukusanya yalikuwa nini? Makundi gani ya kibinafsi yalikuwa ndani yake?
  2. Usanidi wa kutokuwa na utambulisho. Aina zipi za vitengo ziligunduliwa na kubadilishwa? Njia gani ilitumika?
  3. Metadata ya usindikaji. Idadi ya vitengo kwa kila rekodi, alama za kujiamini, rekodi zote zilizosindikwa.
  4. Tathmini ya hatari iliyobaki. Uwezekano ni upi kwamba mtu yeyote anaweza kutambuliwa tena? Kwa kutokuwa na utambulisho wa njia ya Badilisha na aina 285+ za vitengo kwenye maandiko yaliyoundwa, uwezekano huu ni mdogo sana.
  5. Matumizi yaliyokusudiwa. Modeli gani itafunzwa? Madhumuni ya mafunzo ni nini?

Usindikaji wa kundi unatoa vitu 2 na 3 kwa kiotomatiki. Vitu 1, 4, na 5 vinatoka kwa mwanasayansi wa data.

Angalia API ya kundi ya anonym.legal jinsi metadata ya usindikaji inavyorudishwa na kila kazi.

Unachopata

Seti za ML zinazozingatia GDPR zinawezekana bila hati za kawaida, bila ucheleweshaji wa siku nyingi, na bila kupoteza ubora wa modeli.

Njia ya Badilisha inabaki na sifa za lugha asilia zinazohusika kwa mafunzo ya NLP. Inaondoa maelezo ya kibinafsi yanayounda hatari ya GDPR.

Dakika 45 za usindikaji wa kundi ni tofauti kati ya ukaguzi wa ucheleweshaji wa kufuata sheria na idhini rahisi ya DPO.

Vyanzo

Tayari kulinda data yako?

Anza kuanonymisha PII na aina 285+ za vitu katika lugha 48.

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.