ایک اسکرپٹ کافی نہیں

ہر ڈیٹا سائنس ٹیم نے کچھ ایسا لکھا ہوتا ہے:

import re
def anonymize_email(text):
    return re.sub(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', '[EMAIL]', text)

یہ صرف ای میل پتے بدلتا ہے۔ بس اتنا ہی کرتا ہے۔ ڈیٹاسیٹ میں نام، فون نمبر، اور میڈیکل IDs ابھی بھی موجود ہیں۔ یہ GDPR آڈٹ میں ناکام ہو جائے گا۔

"میں نے ای میلز گمنام کر دیں" اور "یہ ڈیٹاسیٹ GDPR کے مطابق ہے" کے درمیان بڑا فرق ہے۔ ٹیمیں اسے ہمیشہ کم سمجھتی ہیں۔

GDPR آرٹیکل 5(1)(b) کلیدی اصول ہے — مقصد کی حد بندی۔ ذاتی ریکارڈ صرف اسی مقصد کے لیے استعمال ہو سکتے ہیں جس کے لیے جمع کیے گئے۔

گاہک کے آرڈر آرڈر پورا کرنے کے لیے جمع ہوئے، recommendation ماڈل ٹریننگ کے لیے نہیں۔ صحت کے ریکارڈ علاج کے لیے ہیں، readmission ماڈل ٹریننگ کے لیے نہیں۔ سروے جوابات مصنوعات کی رائے کے لیے ہیں، sentiment classifier کے لیے نہیں۔

ML ٹریننگ کے لیے ان ریکارڈز کا استعمال تین چیزوں میں سے ایک مانگتا ہے:

ML مقصد کے لیے ہر شخص کی واضح رضامندی — مشکل ہے، ماضی میں اکثر ناممکن
ایک legitimate interest assessment — قانونی طور پر غیر یقینی، DPA پر منحصر
گمنامی — ذاتی تفصیلات ہٹانا تاکہ ڈیٹاسیٹ GDPR کے تحت ذاتی نہ رہے

مناسب گمنامی سب سے زیادہ قانونی یقین دہانی دیتی ہے۔ چیلنج یہ ہے کہ اسے ہر بار درست کیا جائے۔

ایک بار کے اسکرپٹس کا مسئلہ

ہر ڈیٹاسیٹ کے لیے نئی Python اسکرپٹ لکھنے والی ٹیمیں مرکب مسائل پیدا کرتی ہیں۔

نامکمل کوریج۔ ایک اسکیما کے لیے بنائی گئی اسکرپٹ نئے فیلڈز سے چوک جاتی ہے۔ چھ ماہ پہلے شامل کیا گیا clinical notes کالم؟ regex میں نہیں۔ درمیانی نام کا فیلڈ؟ اسکرپٹ صرف پہلا اور آخری نام کا نمونہ سنبھالتی ہے۔

کوئی یکسانیت نہیں۔ ڈیٹاسیٹ A کو script_v1 سے، ڈیٹاسیٹ B کو script_v3 سے، ڈیٹاسیٹ C کو کسی اور ٹیم ممبر نے پروسیس کیا۔ ضم شدہ ٹریننگ سیٹ میں تین مختلف طریقے ہیں۔ DPO اسے تصدیق نہیں دے سکتا۔

کوئی آڈٹ ٹریل نہیں۔ اسکرپٹ چلی۔ اس نے کیا بدلا؟ کون سے ادارے ملے؟ پروسیسنگ ریکارڈز کے بغیر تعمیل ناممکن ہے۔ جب DPA آڈیٹر پوچھے "آپ کو کیسے معلوم یہ ٹریننگ سیٹ صاف ہے؟" تو "ہم نے Python اسکرپٹ چلائی" کافی نہیں۔

ماڈل drift۔ 2023 میں کام آنے والے regex نمونے 2024 کے نئے ID فارمیٹس سے چوک جاتے ہیں۔ اسکرپٹس خود کو اپ ڈیٹ نہیں کرتیں۔

Batch Processing کا عملی مظاہرہ

ایک healthcare AI ٹیم کو 8,000 مریضوں کے ریکارڈ گمنام کرنے ہیں۔ امریکی ٹیم کو EU دفتر سے رسائی چاہیے۔ Schrems II لاگو ہوتا ہے — EU-origin ریکارڈ مناسب حفاظتوں کے بغیر امریکی انفراسٹرکچر نہیں جا سکتے۔

روایتی راستہ: ڈیٹا انجینئر کسٹم اسکرپٹ لکھتا ہے۔ دو سے تین دن ترقی۔ ایک سے دو دن DPO جائزہ۔ ایک دن iteration۔ کل: چار سے چھ دن۔ ML پروجیکٹ پیچھے رہ جاتا ہے۔

Batch processing راستہ:

8,000 ریکارڈ CSV میں export کریں
Batch processing پر upload کریں
ادارے کی اقسام مقرر کریں: PERSON، EMAIL_ADDRESS، PHONE_NUMBER، US_SSN، MEDICAL_RECORD، DATE_OF_BIRTH، LOCATION
طریقہ منتخب کریں: Replace (ڈھانچہ برقرار رکھنے کے لیے حقیقی مصنوعی اقدار)
پروسیس: 8,000 ریکارڈ کے لیے 45 منٹ
صاف CSV download کریں
DPO پروسیسنگ metadata جائزہ لے — 2 گھنٹے
DPO منظوری دیتا ہے۔ منتقلی آگے بڑھتی ہے۔

کل وقت: 45 منٹ اور 2 گھنٹے DPO جائزہ — چار سے چھ دنوں کے بجائے۔

دیکھیں EU AI Act training guide کہ یہی اقدامات آرٹیکل 10 کی ذمہ داریاں کیسے پوری کرتے ہیں۔

ML استعمال کے لیے Replace بمقابلہ Redact

گمنامی کا طریقہ ماڈل کی معیار کے لیے اہم ہے۔

Redact PII کو [REDACTED] ٹوکن سے بدلتا ہے۔ یہ PII detection ماڈلز کے لیے کام کرتا ہے۔ دیگر کاموں کے لیے — sentiment، classification، recommendation — یہ نقصان دیتا ہے۔ ماڈل سیکھتا ہے کہ [REDACTED] ایک خاص ٹوکن ہے۔ یہ ناموں اور اقدار کی قدرتی تقسیم سے نہیں سیکھ سکتا۔

Replace "John Smith" کو "David Chen" سے بدلتا ہے۔ یہ "jsmith@company.com" کو "dchen@synthetic.com" سے بدلتا ہے۔ ڈھانچہ برقرار رہتا ہے۔ ادارے کی جگہ، co-occurrence نمونے، جملے کا بہاؤ — سب محفوظ۔ ماڈل حقیقی سیاق و سباق سے سیکھتا ہے۔

ML ٹریننگ سیٹس کے لیے Replace درست انتخاب ہے۔ ماڈل جھوٹی اقدار نہیں سیکھتا۔ وہ ان کے ارد گرد نمونے سیکھتا ہے — یہی اہم ہے۔

Schrems II اور سرحد پار منتقلی

Schrems II فیصلے (CJEU، 2020) نے EU-US Privacy Shield باطل کر دی۔ EU-origin ریکارڈ امریکی ML انفراسٹرکچر — AWS US-East، GCP US-Central — مناسب منتقلی حفاظتوں کے بغیر نہیں جا سکتے۔

تین اہم حفاظتیں:

Standard Contractual Clauses بمع Transfer Impact Assessment
کمپنی گروپ کے اندر منتقلی کے لیے Binding Corporate Rules
گمنام ریکارڈز کی چھوٹ — مناسب طریقے سے گمنام فائلیں GDPR کے تحت ذاتی نہیں رہتیں اور منتقلی اصولوں سے مستثنیٰ ہیں

امریکی انفراسٹرکچر والی ٹیموں کے لیے مناسب گمنامی Schrems II مسئلہ ختم کر دیتی ہے۔ صاف ڈیٹاسیٹ ذاتی نہیں۔ آزادانہ منتقلی ہو سکتی ہے۔

منتقلی پابندیوں کے بارے میں مزید کے لیے GDPR purpose limitation guide دیکھیں۔

DPO کو کیا دیں

صاف ٹریننگ سیٹ DPO منظوری کے لیے جمع کراتے وقت یہ پانچ چیزیں شامل کریں:

ماخذ کی وضاحت۔ اصل ڈیٹاسیٹ کیا تھا؟ جمع کرنے کا مقصد کیا تھا؟ اس میں کون سی ذاتی اقسام تھیں؟
گمنامی کنفیگ۔ کون سی ادارے کی اقسام detect اور replace ہوئیں؟ کیا طریقہ لاگو کیا گیا؟
پروسیسنگ metadata۔ فی ریکارڈ ادارے کی گنتی، اعتماد سکور، کل ریکارڈ پروسیس۔
باقی خطرے کا جائزہ۔ کوئی فرد دوبارہ شناخت ہونے کا کتنا امکان؟ 285+ ادارے کی اقسام کے ساتھ Replace-method گمنامی کے لیے یہ احتمال بہت کم ہے۔
مطلوبہ استعمال۔ کون سا ماڈل ٹرین ہوگا؟ ٹریننگ کا مقصد کیا ہے؟

Batch processing آئٹم 2 اور 3 خودبخود فراہم کرتی ہے۔ آئٹم 1، 4، اور 5 ڈیٹا سائنٹسٹ سے آتے ہیں۔

دیکھیں anonym.legal batch API کہ پروسیسنگ metadata ہر job کے ساتھ کیسے واپس آتی ہے۔

آپ کو کیا ملتا ہے

GDPR-compliant ML سیٹس کسٹم اسکرپٹس کے بغیر، کئی دنوں کی تاخیر کے بغیر، اور ماڈل کی معیار کھوئے بغیر ممکن ہیں۔

Replace طریقہ وہ قدرتی زبان خصوصیات برقرار رکھتا ہے جو NLP ٹریننگ کے لیے اہم ہیں۔ یہ وہ ذاتی تفصیلات ہٹاتا ہے جو GDPR خطرہ پیدا کرتی ہیں۔

45 منٹ کی batch processing تاخیر شدہ تعمیل جائزے اور سادہ DPO sign-off کے درمیان فرق ہے۔

ذرائع

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

مفت آزمائش شروع کریں خصوصیات دیکھیں

GDPR: ML ٹریننگ ڈیٹا کی گمنامی

ایک اسکرپٹ کافی نہیں

ایک بار کے اسکرپٹس کا مسئلہ

Batch Processing کا عملی مظاہرہ

ML استعمال کے لیے Replace بمقابلہ Redact

Schrems II اور سرحد پار منتقلی

DPO کو کیا دیں

آپ کو کیا ملتا ہے

ذرائع

متعلقہ مضامین

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

GDPR: ML ٹریننگ ڈیٹا کی گمنامی

ایک اسکرپٹ کافی نہیں

GDPR ML ٹریننگ کو کیوں محدود کرتا ہے

ایک بار کے اسکرپٹس کا مسئلہ

Batch Processing کا عملی مظاہرہ

ML استعمال کے لیے Replace بمقابلہ Redact

Schrems II اور سرحد پار منتقلی

DPO کو کیا دیں

آپ کو کیا ملتا ہے

ذرائع

متعلقہ مضامین

Presidio: 3-Week Setup vs Managed PII

6 Weeks to 3 Days: Managed PII Setup

Free PII Detection Costs €13K/Year

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow