By · Last updated 2026-05-27

بلاگ پر واپس جائیںتکنیکی

GDPR: ML ٹریننگ ڈیٹا کی گمنامی

GDPR ذاتی ڈیٹا کو اصل مقصد سے ہٹ کر ML ٹریننگ کے لیے استعمال کرنے پر پابندی لگاتا ہے۔ ایک Python اسکرپٹ کافی نہیں — مکمل تعمیل کے لیے batch anonymization ضروری ہے۔

May 27, 20267 منٹ پڑھیں
ML training dataGDPR data scienceSchrems IItraining dataset anonymizationresponsible AI

ایک اسکرپٹ کافی نہیں

ہر ڈیٹا سائنس ٹیم نے کچھ ایسا لکھا ہوتا ہے:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

یہ صرف ای میل پتے بدلتا ہے۔ بس اتنا ہی کرتا ہے۔ ڈیٹاسیٹ میں نام، فون نمبر، اور میڈیکل IDs ابھی بھی موجود ہیں۔ یہ GDPR آڈٹ میں ناکام ہو جائے گا۔

"میں نے ای میلز گمنام کر دیں" اور "یہ ڈیٹاسیٹ GDPR کے مطابق ہے" کے درمیان بڑا فرق ہے۔ ٹیمیں اسے ہمیشہ کم سمجھتی ہیں۔

GDPR ML ٹریننگ کو کیوں محدود کرتا ہے

GDPR آرٹیکل 5(1)(b) کلیدی اصول ہے — مقصد کی حد بندی۔ ذاتی ریکارڈ صرف اسی مقصد کے لیے استعمال ہو سکتے ہیں جس کے لیے جمع کیے گئے۔

گاہک کے آرڈر آرڈر پورا کرنے کے لیے جمع ہوئے، recommendation ماڈل ٹریننگ کے لیے نہیں۔ صحت کے ریکارڈ علاج کے لیے ہیں، readmission ماڈل ٹریننگ کے لیے نہیں۔ سروے جوابات مصنوعات کی رائے کے لیے ہیں، sentiment classifier کے لیے نہیں۔

ML ٹریننگ کے لیے ان ریکارڈز کا استعمال تین چیزوں میں سے ایک مانگتا ہے:

  1. ML مقصد کے لیے ہر شخص کی واضح رضامندی — مشکل ہے، ماضی میں اکثر ناممکن
  2. ایک legitimate interest assessment — قانونی طور پر غیر یقینی، DPA پر منحصر
  3. گمنامی — ذاتی تفصیلات ہٹانا تاکہ ڈیٹاسیٹ GDPR کے تحت ذاتی نہ رہے

مناسب گمنامی سب سے زیادہ قانونی یقین دہانی دیتی ہے۔ چیلنج یہ ہے کہ اسے ہر بار درست کیا جائے۔

ایک بار کے اسکرپٹس کا مسئلہ

ہر ڈیٹاسیٹ کے لیے نئی Python اسکرپٹ لکھنے والی ٹیمیں مرکب مسائل پیدا کرتی ہیں۔

نامکمل کوریج۔ ایک اسکیما کے لیے بنائی گئی اسکرپٹ نئے فیلڈز سے چوک جاتی ہے۔ چھ ماہ پہلے شامل کیا گیا clinical notes کالم؟ regex میں نہیں۔ درمیانی نام کا فیلڈ؟ اسکرپٹ صرف پہلا اور آخری نام کا نمونہ سنبھالتی ہے۔

کوئی یکسانیت نہیں۔ ڈیٹاسیٹ A کو script_v1 سے، ڈیٹاسیٹ B کو script_v3 سے، ڈیٹاسیٹ C کو کسی اور ٹیم ممبر نے پروسیس کیا۔ ضم شدہ ٹریننگ سیٹ میں تین مختلف طریقے ہیں۔ DPO اسے تصدیق نہیں دے سکتا۔

کوئی آڈٹ ٹریل نہیں۔ اسکرپٹ چلی۔ اس نے کیا بدلا؟ کون سے ادارے ملے؟ پروسیسنگ ریکارڈز کے بغیر تعمیل ناممکن ہے۔ جب DPA آڈیٹر پوچھے "آپ کو کیسے معلوم یہ ٹریننگ سیٹ صاف ہے؟" تو "ہم نے Python اسکرپٹ چلائی" کافی نہیں۔

ماڈل drift۔ 2023 میں کام آنے والے regex نمونے 2024 کے نئے ID فارمیٹس سے چوک جاتے ہیں۔ اسکرپٹس خود کو اپ ڈیٹ نہیں کرتیں۔

Batch Processing کا عملی مظاہرہ

ایک healthcare AI ٹیم کو 8,000 مریضوں کے ریکارڈ گمنام کرنے ہیں۔ امریکی ٹیم کو EU دفتر سے رسائی چاہیے۔ Schrems II لاگو ہوتا ہے — EU-origin ریکارڈ مناسب حفاظتوں کے بغیر امریکی انفراسٹرکچر نہیں جا سکتے۔

روایتی راستہ: ڈیٹا انجینئر کسٹم اسکرپٹ لکھتا ہے۔ دو سے تین دن ترقی۔ ایک سے دو دن DPO جائزہ۔ ایک دن iteration۔ کل: چار سے چھ دن۔ ML پروجیکٹ پیچھے رہ جاتا ہے۔

Batch processing راستہ:

  1. 8,000 ریکارڈ CSV میں export کریں
  2. Batch processing پر upload کریں
  3. ادارے کی اقسام مقرر کریں: PERSON، EMAIL_ADDRESS، PHONE_NUMBER، US_SSN، MEDICAL_RECORD، DATE_OF_BIRTH، LOCATION
  4. طریقہ منتخب کریں: Replace (ڈھانچہ برقرار رکھنے کے لیے حقیقی مصنوعی اقدار)
  5. پروسیس: 8,000 ریکارڈ کے لیے 45 منٹ
  6. صاف CSV download کریں
  7. DPO پروسیسنگ metadata جائزہ لے — 2 گھنٹے
  8. DPO منظوری دیتا ہے۔ منتقلی آگے بڑھتی ہے۔

کل وقت: 45 منٹ اور 2 گھنٹے DPO جائزہ — چار سے چھ دنوں کے بجائے۔

دیکھیں EU AI Act training guide کہ یہی اقدامات آرٹیکل 10 کی ذمہ داریاں کیسے پوری کرتے ہیں۔

ML استعمال کے لیے Replace بمقابلہ Redact

گمنامی کا طریقہ ماڈل کی معیار کے لیے اہم ہے۔

Redact PII کو [REDACTED] ٹوکن سے بدلتا ہے۔ یہ PII detection ماڈلز کے لیے کام کرتا ہے۔ دیگر کاموں کے لیے — sentiment، classification، recommendation — یہ نقصان دیتا ہے۔ ماڈل سیکھتا ہے کہ [REDACTED] ایک خاص ٹوکن ہے۔ یہ ناموں اور اقدار کی قدرتی تقسیم سے نہیں سیکھ سکتا۔

Replace "John Smith" کو "David Chen" سے بدلتا ہے۔ یہ "jsmith@company.com" کو "dchen@synthetic.com" سے بدلتا ہے۔ ڈھانچہ برقرار رہتا ہے۔ ادارے کی جگہ، co-occurrence نمونے، جملے کا بہاؤ — سب محفوظ۔ ماڈل حقیقی سیاق و سباق سے سیکھتا ہے۔

ML ٹریننگ سیٹس کے لیے Replace درست انتخاب ہے۔ ماڈل جھوٹی اقدار نہیں سیکھتا۔ وہ ان کے ارد گرد نمونے سیکھتا ہے — یہی اہم ہے۔

Schrems II اور سرحد پار منتقلی

Schrems II فیصلے (CJEU، 2020) نے EU-US Privacy Shield باطل کر دی۔ EU-origin ریکارڈ امریکی ML انفراسٹرکچر — AWS US-East، GCP US-Central — مناسب منتقلی حفاظتوں کے بغیر نہیں جا سکتے۔

تین اہم حفاظتیں:

  • Standard Contractual Clauses بمع Transfer Impact Assessment
  • کمپنی گروپ کے اندر منتقلی کے لیے Binding Corporate Rules
  • گمنام ریکارڈز کی چھوٹ — مناسب طریقے سے گمنام فائلیں GDPR کے تحت ذاتی نہیں رہتیں اور منتقلی اصولوں سے مستثنیٰ ہیں

امریکی انفراسٹرکچر والی ٹیموں کے لیے مناسب گمنامی Schrems II مسئلہ ختم کر دیتی ہے۔ صاف ڈیٹاسیٹ ذاتی نہیں۔ آزادانہ منتقلی ہو سکتی ہے۔

منتقلی پابندیوں کے بارے میں مزید کے لیے GDPR purpose limitation guide دیکھیں۔

DPO کو کیا دیں

صاف ٹریننگ سیٹ DPO منظوری کے لیے جمع کراتے وقت یہ پانچ چیزیں شامل کریں:

  1. ماخذ کی وضاحت۔ اصل ڈیٹاسیٹ کیا تھا؟ جمع کرنے کا مقصد کیا تھا؟ اس میں کون سی ذاتی اقسام تھیں؟
  2. گمنامی کنفیگ۔ کون سی ادارے کی اقسام detect اور replace ہوئیں؟ کیا طریقہ لاگو کیا گیا؟
  3. پروسیسنگ metadata۔ فی ریکارڈ ادارے کی گنتی، اعتماد سکور، کل ریکارڈ پروسیس۔
  4. باقی خطرے کا جائزہ۔ کوئی فرد دوبارہ شناخت ہونے کا کتنا امکان؟ 285+ ادارے کی اقسام کے ساتھ Replace-method گمنامی کے لیے یہ احتمال بہت کم ہے۔
  5. مطلوبہ استعمال۔ کون سا ماڈل ٹرین ہوگا؟ ٹریننگ کا مقصد کیا ہے؟

Batch processing آئٹم 2 اور 3 خودبخود فراہم کرتی ہے۔ آئٹم 1، 4، اور 5 ڈیٹا سائنٹسٹ سے آتے ہیں۔

دیکھیں anonym.legal batch API کہ پروسیسنگ metadata ہر job کے ساتھ کیسے واپس آتی ہے۔

آپ کو کیا ملتا ہے

GDPR-compliant ML سیٹس کسٹم اسکرپٹس کے بغیر، کئی دنوں کی تاخیر کے بغیر، اور ماڈل کی معیار کھوئے بغیر ممکن ہیں۔

Replace طریقہ وہ قدرتی زبان خصوصیات برقرار رکھتا ہے جو NLP ٹریننگ کے لیے اہم ہیں۔ یہ وہ ذاتی تفصیلات ہٹاتا ہے جو GDPR خطرہ پیدا کرتی ہیں۔

45 منٹ کی batch processing تاخیر شدہ تعمیل جائزے اور سادہ DPO sign-off کے درمیان فرق ہے۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.