بلاگ پر واپس جائیںGDPR اور تعمیل

EU AI Act اگست 2026: آرٹیکل 10 پوری کرنے کے لیے ٹریننگ ڈیٹا گمنامی

EU AI Act کا مکمل نفاذ 2 اگست 2026 کو شروع ہوتا ہے۔ €35 ملین یا عالمی ٹرن اوور کے 7% تک جرمانے۔ آرٹیکل 10 ٹریننگ ڈیٹا گمنامی کا تقاضا کرتا ہے۔

March 16, 20269 منٹ پڑھیں
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

الٹی گنتی شروع ہو گئی ہے

2026 کے لیے اپ ڈیٹ

EU AI Act کی آخری تاریخ حقیقی ہے۔ آرٹیکل 10 کے قوانین 2 اگست 2026 سے لاگو ہوتے ہیں۔ اگر آپ کی ٹیم ایک اعلی خطرہ AI نظام بناتی یا چلاتی ہے، ابھی عمل کریں۔ وقت کم ہے۔

جرمانے GDPR سے زیادہ ہیں۔ زیادہ سے زیادہ جرمانہ €35 ملین یا عالمی سالانہ ٹرن اوور کا 7% ہے۔ GDPR €20 ملین یا 4% تک محدود ہے۔ کوئی اور AI قانون زیادہ جرمانے نہیں رکھتا۔

کون سے AI نظام اعلی خطرے میں ہیں؟

AI Act نظاموں کو خطرے سے ترتیب دیتا ہے۔ اعلی خطرہ نظام (ضمیمہ III) AI کا احاطہ کرتے ہیں جو ان میں استعمال ہوتا ہے:

  • تعلیم — اسکول رسائی یا طالب علم اسکورنگ
  • ملازمت — CV اسکریننگ، انٹرویو اسکورنگ، کارکن مانیٹرنگ
  • اہم خدمات — کریڈٹ اسکورنگ، انشورنس قیمت، ایمرجنسی ڈسپیچ
  • قانون نافذ کرنا — جرم کی پیش گوئی، بائیومیٹرک ID
  • صحت — طبی آلہ سافٹ ویئر، مریض triage
  • انفراسٹرکچر — توانائی، پانی، یا نقل و حمل کا انتظام
  • انصاف — قانونی تحقیق ٹولز، سزا کے ٹولز

ان میں سے کسی میں بھی کام کرتے ہیں؟ آرٹیکل 10 آپ پر لاگو ہوتا ہے۔

آرٹیکل 10: چار اہم قوانین

آرٹیکل 10 اعلی خطرہ AI نظاموں کے ذریعے استعمال شدہ datasets کے لیے قوانین مقرر کرتا ہے۔ یہاں چار اہم ہیں۔

1. تحریری گورننس

Datasets کو "مناسب ڈیٹا گورننس اور انتظامی طریقوں" کی پیروی کرنی چاہیے۔ آپ کو جمع کرنے، معیار کی جانچ، اور جاری جائزہ کے لیے تحریری اقدامات کی ضرورت ہے۔

2. تعصب کی جانچ

ریکارڈز کو "ممکنہ تعصبات" کے لیے چیک کیا جانا چاہیے جو غیر منصفانہ آؤٹ پٹ کا سبب بن سکتے ہیں۔ فعال جانچ ضروری ہے۔ جان بوجھ کر تعصب سے بچنا کافی نہیں ہے۔

3. درستگی اور کوریج

Datasets "متعلقہ، کافی نمائندہ، اور غلطیوں سے پاک" ہونے چاہیے۔ ویب کرالز جو کچھ گروہوں کو نظرانداز کرتے ہیں اس ٹیسٹ میں ناکام ہو سکتے ہیں۔

4. خصوصی ریکارڈ کی اقسام

آرٹیکل 10(5) سب سے براہ راست قانون ہے۔ جب ایک اعلی خطرہ نظام خصوصی زمرے کے ریکارڈ — صحت، نسل، مذہب، سیاست، بائیومیٹرکس — استعمال کرتا ہے، آپ انہیں صرف اسی وقت پروسیس کر سکتے ہیں جب تعصب کی جانچ کے لیے "سختی سے ضروری" ہو۔ آپ کو "مناسب حفاظتی اقدامات" بھی لاگو کرنے ہوں گے۔ ڈیٹا scrubbing سب سے مضبوط حفاظتی اقدامات میں سے ایک ہے جو آپ استعمال کر سکتے ہیں۔

خلاصہ: زیادہ تر AI ماڈل datasets میں ذاتی ریکارڈ ہوتے ہیں۔ آرٹیکل 10 کہتا ہے کہ مضبوط تکنیکی حفاظتی اقدامات کے ساتھ کم سے کم ضروری استعمال کریں۔

تفصیلات کے لیے ہمارا قانونی تعمیل صفحہ اور سیکیورٹی جائزہ دیکھیں۔

جرمانے کی سطحیں

EU AI Act کی تین جرمانے کی سطحیں ہیں۔ ان سب میں سے ہر ایک اسی نوعیت کی خلاف ورزی کے لیے GDPR سے زیادہ ہے:

ضابطہزیادہ سے زیادہ جرمانہٹرن اوور حد
GDPR€20 ملینعالمی ٹرن اوور کا 4%
EU AI Act (اعلی خطرہ)€15 ملینعالمی ٹرن اوور کا 3%
EU AI Act (ممنوع)€35 ملینعالمی ٹرن اوور کا 7%

Dataset خلاف ورزیاں اعلی خطرہ سطح میں آتی ہیں (€15M / 3%)۔ اگر ایک ریگولیٹر پاتا ہے کہ حفاظتی اقدامات کے بغیر ذاتی ریکارڈ استعمال کرنا ایک ممنوع فعل ہے، سب سے اوپری سطح لاگو ہوتی ہے۔

حقیقی مثالیں: 3% پر €500M ٹرن اوور = €15M جرمانہ۔ 3% پر €5B ٹرن اوور = €150M جرمانہ۔ یہ حقیقی اعداد ہیں، نظریہ نہیں۔

ڈیٹا Scrubbing اسے کیوں حل کرتی ہے

صحیح طریقے سے scrub کیے گئے ریکارڈ GDPR کے دائرے سے باہر آ جاتے ہیں۔ یہ آرٹیکل 10 کا زیادہ تر بوجھ ہٹا دیتا ہے۔

سخت قوانین — خصوصی زمرے کی ہینڈلنگ، تعصب کی جانچ، data subject کے حقوق — صرف اسی وقت لاگو ہوتے ہیں جب dataset میں ذاتی ریکارڈ ہوں۔ پہلے وہ ریکارڈ ہٹائیں۔ بوجھ زیادہ تر ختم ہو جاتا ہے۔

CNIL (فرانسیسی ڈیٹا اتھارٹی) نے 2026 کے اوائل میں یہ واضح کیا۔ اس کی AI گائیڈنس کہتی ہے: ماڈل کارکردگی کے لیے ضروری نہ ہونے والے ذاتی ریکارڈز کی ڈیٹا scrubbing آرٹیکل 10 کے لیے بنیادی تکنیکی اقدام ہے۔

یہ ایک فرنج نقطہ نظر نہیں ہے۔ یہ EU کے سب سے بڑے AI ریگولیٹر کی مرکزی پوزیشن ہے۔

عملی طور پر ڈیٹا Scrubbing کا کیا مطلب ہے

AI ماڈل datasets کو scrub کرنا لائیو پروڈکشن ریکارڈز کو scrub کرنے جیسا نہیں ہے۔ ماڈل datasets میں یہ ہو سکتا ہے:

  • PII کے ساتھ دستاویزات — معاہدے، ای میل، رپورٹ، سپورٹ ٹکٹ
  • ساختہ ریکارڈز — پیشین گوئی ماڈل بنانے کے لیے استعمال کردہ کسٹمر ٹیبل
  • لیبل شدہ مواد — ذاتی ڈیٹا شامل نوٹ کے ساتھ تصاویر یا متن
  • مصنوعی ریکارڈز — جہاں تخلیق اب بھی ذاتی پیٹرن محفوظ رکھ سکتی ہے

آپ کو ان تمام فارمیٹس میں PII شناخت کرنی ہوگی۔ ایک قسم کو نظرانداز کرنا پوری dataset کو بے نقاب کرتا ہے۔ ایک معاہدہ جس میں نام ہٹائے گئے ہیں لیکن پورے پتے برقرار ہیں، ایک ماڈل کو مقام کو آبادیاتی نمونوں سے جوڑنا سکھائے گا۔

anonym.legal API بڑے AI datasets کے لیے batch پروسیسنگ سنبھالتا ہے۔ یہ 48 زبانوں میں 285+ ہستی کی اقسام شناخت کرتا ہے۔ کثیر لسانی datasets والی یورپی AI کمپنیوں کے لیے، کراس زبان کوریج اہم ہے۔ ایک زبان میں خلا پورے نظام میں EU AI Act خطرہ پیدا کرتا ہے۔

ہستی شناخت کے بارے میں مزید کے لیے، ٹوکن سسٹم گائیڈ اور ہستی اقسام حوالہ دیکھیں۔

عملی اقدامات: اپنا Dataset Scrub کرنا

مرحلہ 1: پہلے آڈٹ کریں

کچھ بھی scrub کرنے سے پہلے ایک شناخت پاس چلائیں۔ یہ آپ کو بتاتا ہے کہ کون سی PII موجود ہے:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

جواب ہر شناخت شدہ ہستی کو اس کی قسم، پوزیشن، اور اسکور کے ساتھ درج کرتا ہے۔ شروع کرنے سے پہلے مکمل دائرہ کار دیکھنے کے لیے تمام فائلوں میں یہ چلائیں۔

مرحلہ 2: Batch scrub

بڑے datasets کے لیے، ایک ساتھ بہت سی فائلیں پروسیس کرنے کے لیے batch endpoint استعمال کریں:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"مکمل: {result['id']} — {len(result['items'])} ہستیاں ہٹائی گئیں")

مرحلہ 3: ریکارڈ رکھیں

آرٹیکل 10 کے لیے آپ نے کیا کیا اس کے تحریری ریکارڈ درکار ہیں۔ ہر dataset کے لیے رکھیں:

  • استعمال شدہ شناخت ماڈل اور ورژن
  • کون سی ہستی کی اقسام ملیں اور ہر ایک کو کیسے بدلا گیا
  • فی dataset ہٹائی گئی ہستی کی تعداد
  • scrubbing کی تاریخ اور استعمال شدہ dataset ورژن

یہ آرٹیکل 10(2)(a) میں "ڈیٹا گورننس اور انتظامی طریقوں" کی ضرورت کو پورا کرتا ہے۔

عام سوالات

کیا scrubbing ماڈل کا معیار توڑتی ہے؟

زیادہ تر معاملات میں، نہیں۔ ماڈل متن کی ساخت سے نمونے سیکھتا ہے، ذاتی تفصیلات سے نہیں۔ نام، فون نمبر، اور پتے [NAME] یا [PHONE] جیسے placeholders سے بدلے جا سکتے ہیں اور ماڈل وہی نمونے سیکھتا ہے۔ بہت سی تحقیقی ٹیموں نے پایا ہے کہ scrub کردہ datasets برابر معیار کے ماڈل تیار کرتے ہیں۔ اہم بات یہ ہے کہ مستقل placeholders استعمال کریں تاکہ ماڈل ایک واضح نمونہ دیکھے۔

اگر میرا dataset بہت بڑا ہو تو کیا ہوگا؟

batch API استعمال کریں۔ یہ بڑے حجم کو parallel میں سنبھالتا ہے۔ قیمتوں کا صفحہ اعلی حجم استعمال کے معاملات کے لیے منصوبے دکھاتا ہے۔ بہت سی ٹیمیں فی مہینہ لاکھوں ریکارڈ پروسیس کرتی ہیں۔

غیر انگریزی datasets کے بارے میں کیا خیال ہے؟

API 48 زبانوں کو سپورٹ کرتا ہے۔ ہر زبان اس زبان پر تربیت یافتہ شناخت ماڈل استعمال کرتی ہے۔ اس کا مطلب ہے جرمن، فرانسیسی، ہسپانوی، جاپانی، اور دیگر سب کا احاطہ ہے۔ مکمل زبان کی فہرست کے لیے FAQ دیکھیں۔ ملی جلی زبان کے datasets بھی سپورٹ ہیں — آپ batch درخواست میں فی دستاویز زبان مخصوص کر سکتے ہیں۔

Colorado AI Act: دو آخری تاریخیں

Colorado کا AI Act 30 جون 2026 کو نافذ ہوتا ہے — EU کی آخری تاریخ سے پانچ ہفتے پہلے۔ یہ ریاستی قانون کے تحت "اعلی خطرہ AI نظاموں" کے لیے ایسے ہی قوانین مقرر کرتا ہے۔ اہم توجہ تعصب اور امتیاز پر ہے۔

EU اور Colorado دونوں میں ٹیمیں بیک وقت دو آخری تاریخوں کا سامنا کرتی ہیں۔ اپنے datasets کو scrub کرنا دونوں قوانین پورا کرنے میں مدد کرتا ہے: آرٹیکل 10 (EU) اور Colorado کے anti-bias قوانین۔ تکنیکی اقدامات ایک جیسے ہیں۔

ابھی عمل کریں

پانچ مہینے کافی ہیں — اگر آج شروع کریں۔ یہ کافی نہیں اگر آپ جون تک انتظار کریں۔

ایک عملی ٹائم لائن:

  1. ہفتے 1–2: اپنے datasets کا آڈٹ کریں — معلوم کریں کہ کون سے ذاتی ریکارڈ موجود ہیں
  2. ہفتے 3–6: اپنی scrubbing pipeline بنائیں اور ٹیسٹ کریں
  3. ہفتے 7–10: اپنے گورننس ریکارڈ لکھیں؛ قانونی جائزہ حاصل کریں
  4. ہفتے 11–16: تصدیق کریں — scrub شدہ datasets کی تصدیق کریں کہ وہ آرٹیکل 10 معیار پر پورا اترتے ہیں
  5. 2 اگست: نفاذ کی تاریخ — تعمیل طریقے جگہ پر ہیں

anonym.legal API بڑی تبدیلیوں کے بغیر آپ کی موجودہ pipeline میں plug in ہوتا ہے۔ حجم منصوبوں کے لیے قیمتیں چیک کریں۔ FAQ عام آرٹیکل 10 سوالات کا احاطہ کرتا ہے۔

ان ریکارڈز کے لیے GDPR تعمیل چیک لسٹ استعمال کریں جو GDPR اور آرٹیکل 10 کے درمیان مشترک ہیں۔

EU AI Act نافذ کرنے کے لیے تیار ہے۔ کیا آپ کی تنظیم 2 اگست تک تیار ہوگی؟

GDPR تعمیل چیک لسٹ سے شروع کریں →

حدیں اور کھلے سوالات

AI Act قوانین کے لیے ڈیٹا scrubbing ابھی تیار ہو رہی ہے۔ یہاں اہم خلا ہیں۔

حدیں متعین نہیں ہیں۔ EU AI Act یہ نہیں بتاتا کہ scrubbing کی کون سی سطح "کافی" ہے۔ جب تک European AI Office گائیڈنس جاری نہیں کرتا، آپ کو قانونی خطرے کا سامنا ہے۔ آپ نہیں جان سکتے کہ آیا آپ کا طریقہ ریگولیٹرز کو مطمئن کرے گا۔

دوبارہ شناخت کا خطرہ باقی ہے۔ تحقیق ظاہر کرتی ہے کہ بڑے زبان کے ماڈل اپنے datasets سے مواد یاد کر کے دوبارہ پیش کر سکتے ہیں۔ ریکارڈز جو ماڈل کی تیاری سے پہلے scrubbing معیار پاس کر گئے ہیں اب بھی نکالے جا سکتے ہیں۔ تیاری سے پہلے scrubbing اسے مکمل طور پر حل نہیں کرتی۔

مصنوعی ریکارڈز کی حدیں ہیں۔ مصنوعی تخلیق شماریاتی نمونے برقرار رکھتی ہے لیکن ٹھیک تعصب شامل کر سکتی ہے یا نادر edge cases نظرانداز کر سکتی ہے۔ صرف مصنوعی مواد پر بنے ماڈل حقیقی ان پٹ پر خراب کارکردگی دکھا سکتے ہیں۔

آرٹیکل 10 ابھی تشریح کی جا رہی ہے۔ "مناسب تکنیکی اقدامات" کے جملے کو تشریح کی ضرورت ہے۔ EU کے رکن ریاستوں میں DPA کا ابتدائی کام واضح معیار پر آباد نہیں ہوا ہے۔ 2026 بھر میں EDPB گائیڈنس اور رکن ریاست کے فیصلوں پر نظر رکھیں۔

ذرائع

  • EU AI Act، Regulation (EU) 2024/1689، آرٹیکل 9–17 (اعلی خطرہ AI ذمہ داریاں)، OJ L 2024/1689
  • EU AI Act، آرٹیکل 10 — ڈیٹا اور ڈیٹا گورننس
  • CNIL AI dataset گائیڈنس، جنوری 2026
  • Colorado AI Act، SB 205، نافذ 30 جون 2026
  • EU AI Act ٹائم لائن: ممنوع طریقے 2 فروری 2025؛ اعلی خطرہ نظام 2 اگست 2026

کیا آپ اپنے ڈیٹا کی حفاظت کے لیے تیار ہیں؟

48 زبانوں میں 285+ ادارتی اقسام کے ساتھ PII کی گمنامی شروع کریں۔

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.