ایک اسکرپٹ کافی نہیں
ہر ڈیٹا سائنس ٹیم نے کچھ ایسا لکھا ہوتا ہے:
import re
def anonymize_email(text):
return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)
یہ صرف ای میل پتے بدلتا ہے۔ بس اتنا ہی کرتا ہے۔ ڈیٹاسیٹ میں نام، فون نمبر، اور میڈیکل IDs ابھی بھی موجود ہیں۔ یہ GDPR آڈٹ میں ناکام ہو جائے گا۔
"میں نے ای میلز گمنام کر دیں" اور "یہ ڈیٹاسیٹ GDPR کے مطابق ہے" کے درمیان بڑا فرق ہے۔ ٹیمیں اسے ہمیشہ کم سمجھتی ہیں۔
GDPR ML ٹریننگ کو کیوں محدود کرتا ہے
GDPR آرٹیکل 5(1)(b) کلیدی اصول ہے — مقصد کی حد بندی۔ ذاتی ریکارڈ صرف اسی مقصد کے لیے استعمال ہو سکتے ہیں جس کے لیے جمع کیے گئے۔
گاہک کے آرڈر آرڈر پورا کرنے کے لیے جمع ہوئے، recommendation ماڈل ٹریننگ کے لیے نہیں۔ صحت کے ریکارڈ علاج کے لیے ہیں، readmission ماڈل ٹریننگ کے لیے نہیں۔ سروے جوابات مصنوعات کی رائے کے لیے ہیں، sentiment classifier کے لیے نہیں۔
ML ٹریننگ کے لیے ان ریکارڈز کا استعمال تین چیزوں میں سے ایک مانگتا ہے:
- ML مقصد کے لیے ہر شخص کی واضح رضامندی — مشکل ہے، ماضی میں اکثر ناممکن
- ایک legitimate interest assessment — قانونی طور پر غیر یقینی، DPA پر منحصر
- گمنامی — ذاتی تفصیلات ہٹانا تاکہ ڈیٹاسیٹ GDPR کے تحت ذاتی نہ رہے
مناسب گمنامی سب سے زیادہ قانونی یقین دہانی دیتی ہے۔ چیلنج یہ ہے کہ اسے ہر بار درست کیا جائے۔
ایک بار کے اسکرپٹس کا مسئلہ
ہر ڈیٹاسیٹ کے لیے نئی Python اسکرپٹ لکھنے والی ٹیمیں مرکب مسائل پیدا کرتی ہیں۔
نامکمل کوریج۔ ایک اسکیما کے لیے بنائی گئی اسکرپٹ نئے فیلڈز سے چوک جاتی ہے۔ چھ ماہ پہلے شامل کیا گیا clinical notes کالم؟ regex میں نہیں۔ درمیانی نام کا فیلڈ؟ اسکرپٹ صرف پہلا اور آخری نام کا نمونہ سنبھالتی ہے۔
کوئی یکسانیت نہیں۔ ڈیٹاسیٹ A کو script_v1 سے، ڈیٹاسیٹ B کو script_v3 سے، ڈیٹاسیٹ C کو کسی اور ٹیم ممبر نے پروسیس کیا۔ ضم شدہ ٹریننگ سیٹ میں تین مختلف طریقے ہیں۔ DPO اسے تصدیق نہیں دے سکتا۔
کوئی آڈٹ ٹریل نہیں۔ اسکرپٹ چلی۔ اس نے کیا بدلا؟ کون سے ادارے ملے؟ پروسیسنگ ریکارڈز کے بغیر تعمیل ناممکن ہے۔ جب DPA آڈیٹر پوچھے "آپ کو کیسے معلوم یہ ٹریننگ سیٹ صاف ہے؟" تو "ہم نے Python اسکرپٹ چلائی" کافی نہیں۔
ماڈل drift۔ 2023 میں کام آنے والے regex نمونے 2024 کے نئے ID فارمیٹس سے چوک جاتے ہیں۔ اسکرپٹس خود کو اپ ڈیٹ نہیں کرتیں۔
Batch Processing کا عملی مظاہرہ
ایک healthcare AI ٹیم کو 8,000 مریضوں کے ریکارڈ گمنام کرنے ہیں۔ امریکی ٹیم کو EU دفتر سے رسائی چاہیے۔ Schrems II لاگو ہوتا ہے — EU-origin ریکارڈ مناسب حفاظتوں کے بغیر امریکی انفراسٹرکچر نہیں جا سکتے۔
روایتی راستہ: ڈیٹا انجینئر کسٹم اسکرپٹ لکھتا ہے۔ دو سے تین دن ترقی۔ ایک سے دو دن DPO جائزہ۔ ایک دن iteration۔ کل: چار سے چھ دن۔ ML پروجیکٹ پیچھے رہ جاتا ہے۔
Batch processing راستہ:
- 8,000 ریکارڈ CSV میں export کریں
- Batch processing پر upload کریں
- ادارے کی اقسام مقرر کریں: PERSON، EMAIL_ADDRESS، PHONE_NUMBER، US_SSN، MEDICAL_RECORD، DATE_OF_BIRTH، LOCATION
- طریقہ منتخب کریں: Replace (ڈھانچہ برقرار رکھنے کے لیے حقیقی مصنوعی اقدار)
- پروسیس: 8,000 ریکارڈ کے لیے 45 منٹ
- صاف CSV download کریں
- DPO پروسیسنگ metadata جائزہ لے — 2 گھنٹے
- DPO منظوری دیتا ہے۔ منتقلی آگے بڑھتی ہے۔
کل وقت: 45 منٹ اور 2 گھنٹے DPO جائزہ — چار سے چھ دنوں کے بجائے۔
دیکھیں EU AI Act training guide کہ یہی اقدامات آرٹیکل 10 کی ذمہ داریاں کیسے پوری کرتے ہیں۔
ML استعمال کے لیے Replace بمقابلہ Redact
گمنامی کا طریقہ ماڈل کی معیار کے لیے اہم ہے۔
Redact PII کو [REDACTED] ٹوکن سے بدلتا ہے۔ یہ PII detection ماڈلز کے لیے کام کرتا ہے۔ دیگر کاموں کے لیے — sentiment، classification، recommendation — یہ نقصان دیتا ہے۔ ماڈل سیکھتا ہے کہ [REDACTED] ایک خاص ٹوکن ہے۔ یہ ناموں اور اقدار کی قدرتی تقسیم سے نہیں سیکھ سکتا۔
Replace "John Smith" کو "David Chen" سے بدلتا ہے۔ یہ "jsmith@company.com" کو "dchen@synthetic.com" سے بدلتا ہے۔ ڈھانچہ برقرار رہتا ہے۔ ادارے کی جگہ، co-occurrence نمونے، جملے کا بہاؤ — سب محفوظ۔ ماڈل حقیقی سیاق و سباق سے سیکھتا ہے۔
ML ٹریننگ سیٹس کے لیے Replace درست انتخاب ہے۔ ماڈل جھوٹی اقدار نہیں سیکھتا۔ وہ ان کے ارد گرد نمونے سیکھتا ہے — یہی اہم ہے۔
Schrems II اور سرحد پار منتقلی
Schrems II فیصلے (CJEU، 2020) نے EU-US Privacy Shield باطل کر دی۔ EU-origin ریکارڈ امریکی ML انفراسٹرکچر — AWS US-East، GCP US-Central — مناسب منتقلی حفاظتوں کے بغیر نہیں جا سکتے۔
تین اہم حفاظتیں:
- Standard Contractual Clauses بمع Transfer Impact Assessment
- کمپنی گروپ کے اندر منتقلی کے لیے Binding Corporate Rules
- گمنام ریکارڈز کی چھوٹ — مناسب طریقے سے گمنام فائلیں GDPR کے تحت ذاتی نہیں رہتیں اور منتقلی اصولوں سے مستثنیٰ ہیں
امریکی انفراسٹرکچر والی ٹیموں کے لیے مناسب گمنامی Schrems II مسئلہ ختم کر دیتی ہے۔ صاف ڈیٹاسیٹ ذاتی نہیں۔ آزادانہ منتقلی ہو سکتی ہے۔
منتقلی پابندیوں کے بارے میں مزید کے لیے GDPR purpose limitation guide دیکھیں۔
DPO کو کیا دیں
صاف ٹریننگ سیٹ DPO منظوری کے لیے جمع کراتے وقت یہ پانچ چیزیں شامل کریں:
- ماخذ کی وضاحت۔ اصل ڈیٹاسیٹ کیا تھا؟ جمع کرنے کا مقصد کیا تھا؟ اس میں کون سی ذاتی اقسام تھیں؟
- گمنامی کنفیگ۔ کون سی ادارے کی اقسام detect اور replace ہوئیں؟ کیا طریقہ لاگو کیا گیا؟
- پروسیسنگ metadata۔ فی ریکارڈ ادارے کی گنتی، اعتماد سکور، کل ریکارڈ پروسیس۔
- باقی خطرے کا جائزہ۔ کوئی فرد دوبارہ شناخت ہونے کا کتنا امکان؟ 285+ ادارے کی اقسام کے ساتھ Replace-method گمنامی کے لیے یہ احتمال بہت کم ہے۔
- مطلوبہ استعمال۔ کون سا ماڈل ٹرین ہوگا؟ ٹریننگ کا مقصد کیا ہے؟
Batch processing آئٹم 2 اور 3 خودبخود فراہم کرتی ہے۔ آئٹم 1، 4، اور 5 ڈیٹا سائنٹسٹ سے آتے ہیں۔
دیکھیں anonym.legal batch API کہ پروسیسنگ metadata ہر job کے ساتھ کیسے واپس آتی ہے۔
آپ کو کیا ملتا ہے
GDPR-compliant ML سیٹس کسٹم اسکرپٹس کے بغیر، کئی دنوں کی تاخیر کے بغیر، اور ماڈل کی معیار کھوئے بغیر ممکن ہیں۔
Replace طریقہ وہ قدرتی زبان خصوصیات برقرار رکھتا ہے جو NLP ٹریننگ کے لیے اہم ہیں۔ یہ وہ ذاتی تفصیلات ہٹاتا ہے جو GDPR خطرہ پیدا کرتی ہیں۔
45 منٹ کی batch processing تاخیر شدہ تعمیل جائزے اور سادہ DPO sign-off کے درمیان فرق ہے۔