ब्लॉग पर वापस जाएँGDPR और अनुपालन

EU AI Act अगस्त 2026: Article 10 पूरा करने के लिए Training Data को Anonymize करें

EU AI Act का full enforcement 2 अगस्त 2026 से शुरू होता है। €35M या global turnover का 7% तक जुर्माना। Article 10 के लिए training data anonymization अनिवार्य है।

March 16, 20269 मिनट पढ़ें
EU AI Acttraining dataArticle 10GDPR complianceAI regulation2026 deadlinedata governance

काउंटडाउन शुरू हो गया है

2026 के लिए अपडेट किया गया

EU AI Act की deadline असली है। Article 10 नियम 2 अगस्त 2026 से लागू होते हैं। यदि आपकी टीम high-risk AI system बनाती या चलाती है, तो अभी काम करें। समय कम है।

Jurmane GDPR से ज़्यादा हैं। अधिकतम जुर्माना €35 million या global annual turnover का 7% है। GDPR €20 million या 4% पर cap है। किसी अन्य AI law में इससे ज़्यादा जुर्माना नहीं है।

कौन से AI Systems High-Risk हैं?

AI Act systems को risk से sort करता है। High-risk systems (Annex III) में AI cover होती है जो इनमें उपयोग होती है:

  • Education — school access या student scoring
  • Jobs — CV screening, interview scoring, worker monitoring
  • Key services — credit scoring, insurance pricing, emergency dispatch
  • Law enforcement — crime prediction, biometric ID
  • Healthcare — medical device software, patient triage
  • Infrastructure — energy, water, या transport management
  • Justice — legal research tools, sentence tools

इनमें से किसी में काम करते हैं? Article 10 आप पर लागू होता है।

Article 10: चार प्रमुख नियम

Article 10 high-risk AI systems द्वारा उपयोग किए जाने वाले datasets के लिए नियम निर्धारित करता है। यहाँ चार मुख्य हैं।

1. Written Governance

Datasets को "appropriate data governance and management practices" का पालन करना चाहिए। आपको collection, quality checks, और ongoing review के लिए written steps चाहिए।

2. Bias Testing

Records को "possible biases" के लिए जाँचना होगा जो unfair outputs का कारण बन सकते हैं। Active testing अनिवार्य है। Intentional bias से बचना पर्याप्त नहीं है।

3. Accuracy और Coverage

Datasets "relevant, sufficiently representative, और free of errors" होने चाहिए। Web crawls जो कुछ groups को miss करते हैं, यह test fail कर सकते हैं।

4. Special Record Types

Article 10(5) सबसे direct नियम है। जब एक high-risk system special category records का उपयोग करता है — health, race, religion, politics, biometrics — तो आप उन्हें केवल तभी process कर सकते हैं जब bias checks के लिए "strictly necessary" हो। आपको "appropriate safeguards" भी apply करने होंगे। Data scrubbing सबसे मज़बूत safeguards में से एक है।

निष्कर्ष: अधिकांश AI model datasets में personal records होते हैं। Article 10 कहता है कि minimum आवश्यक का उपयोग करें, मज़बूत technical safeguards के साथ।

विवरण के लिए हमारा legal compliance page और security overview देखें।

Penalty Tiers

EU AI Act में तीन fine tiers हैं। सभी उसी प्रकार के breach के लिए GDPR से अधिक हैं:

RegulationMax FineTurnover Cap
GDPR€20 million4% global turnover
EU AI Act (high-risk)€15 million3% global turnover
EU AI Act (prohibited)€35 million7% global turnover

Dataset breaches high-risk tier (€15M / 3%) में आते हैं। यदि regulator पाता है कि safeguards के बिना personal records का उपयोग एक prohibited act है, तो top tier लागू होता है।

Real examples: €500M turnover पर 3% = €15M जुर्माना। €5B turnover पर 3% = €150M जुर्माना। ये real numbers हैं, theory नहीं।

Data Scrubbing इसे क्यों Solve करता है

Proper तरीके से scrubbed records GDPR scope के बाहर आते हैं। यह Article 10 के अधिकांश burden को हटा देता है।

कठिन नियम — special category handling, bias checks, data subject rights — केवल तब लागू होते हैं जब dataset में personal records हों। पहले उन records को हटाएँ। Burden अधिकतर चला जाता है।

CNIL (French data authority) ने 2026 की शुरुआत में यह स्पष्ट किया। इसके AI guidance में कहा गया है: model performance के लिए आवश्यक नहीं personal records का data scrubbing Article 10 के लिए primary technical measure है।

यह fringe view नहीं है। यह EU के top AI regulator का mainstream position है।

Practice में Data Scrubbing का क्या अर्थ है

AI model datasets को scrub करना live production records को scrub करने जैसा नहीं है। Model datasets में हो सकता है:

  • PII वाले Documents — contracts, emails, reports, support tickets
  • Structured records — predictive models बनाने के लिए उपयोग की गई customer tables
  • Labeled content — personal data वाले notes के साथ images या text
  • Synthetic records — जहाँ generation अभी भी personal patterns preserve कर सकती है

आपको इन सभी formats में PII detect करनी होगी। एक type miss करने से पूरा dataset expose होता है। नाम हटाए गए लेकिन पूरे addresses बरकरार वाला contract एक model को location को demographic patterns से link करना सिखाएगा।

anonym.legal API large AI datasets के लिए batch processing handle करती है। यह 48 भाषाओं में 285+ entity प्रकार detect करती है। Multilingual datasets वाली European AI companies के लिए, cross-language coverage critical है। एक भाषा में gap पूरे system में EU AI Act risk बनाता है।

Entity detection पर अधिक जानकारी के लिए, token system guide और entity types reference देखें।

Practical Steps: अपना Dataset Scrub करें

Step 1: पहले Audit करें

Kuch भी scrub करने से पहले detection pass चलाएँ। यह बताता है कि कौन सा PII मौजूद है:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Response हर detected entity को उसके type, position, और score के साथ list करता है। अपनी सभी files पर यह चलाएँ ताकि शुरू करने से पहले पूरा scope देख सकें।

Step 2: Batch Scrub

बड़े datasets के लिए, एक साथ कई files process करने के लिए batch endpoint का उपयोग करें:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Done: {result['id']} — {len(result['items'])} entities removed")

Step 3: Records रखें

Article 10 के लिए written records की आवश्यकता है कि आपने क्या किया। हर dataset के लिए रखें:

  • उपयोग किया गया detection model और version
  • कौन से entity types मिले और हर एक को कैसे replace किया गया
  • प्रति dataset हटाई गई entity counts
  • Scrubbing की तारीख और dataset version

यह Article 10(2)(a) में "data governance and management practices" requirement पूरी करता है।

सामान्य प्रश्न

क्या scrubbing model quality तोड़ती है?

अधिकांश मामलों में, नहीं। Model text structure से patterns सीखता है, personal details से नहीं। नाम, phone numbers, और addresses को [NAME] या [PHONE] जैसे placeholders से replace किया जा सकता है और model वही patterns सीखता है। कई research teams ने पाया है कि scrubbed datasets same quality के models produce करते हैं। Key है consistent placeholders का उपयोग करना ताकि model एक clear pattern देखे।

यदि मेरा dataset बहुत बड़ा है तो?

Batch API का उपयोग करें। यह parallel में large volumes handle करती है। pricing page high-volume use cases के plans दिखाता है। कई teams प्रति माह millions of records process करती हैं।

Non-English datasets के बारे में क्या?

API 48 भाषाओं को support करती है। हर भाषा उस भाषा पर trained detection model का उपयोग करती है। इसका मतलब है German, French, Spanish, Japanese, और अन्य सभी covered हैं। Mixed-language datasets भी supported हैं — आप batch request में प्रति document language specify कर सकते हैं।

Colorado AI Act: दो Deadlines

Colorado का AI Act 30 जून 2026 से प्रभावी होता है — EU deadline से पाँच सप्ताह पहले। यह state law के तहत "high-risk AI systems" के लिए समान नियम निर्धारित करता है। मुख्य focus bias और discrimination है।

EU और Colorado दोनों में teams को एक साथ दो deadlines का सामना करना पड़ता है। अपने datasets को scrub करने से दोनों laws पूरी करने में मदद मिलती है: Article 10 (EU) और Colorado के anti-bias rules। Technical steps समान हैं।

अभी काम करें

पाँच महीने पर्याप्त हैं — यदि आप आज शुरू करते हैं। यदि आप जून तक इंतज़ार करते हैं तो पर्याप्त नहीं।

एक practical timeline:

  1. Weeks 1–2: अपने datasets audit करें — पता लगाएँ कि कौन से personal records मौजूद हैं
  2. Weeks 3–6: अपनी scrubbing pipeline बनाएँ और test करें
  3. Weeks 7–10: अपने governance records लिखें; legal review करें
  4. Weeks 11–16: Validate करें — confirm करें कि scrubbed datasets Article 10 quality rules पूरी करते हैं
  5. 2 अगस्त: Enforcement date — compliant practices in place

anonym.legal API आपकी current pipeline में बड़े बदलावों के बिना plug in होती है। Volume plans के लिए pricing देखें। सामान्य Article 10 सवालों के लिए FAQ देखें।

GDPR और Article 10 के बीच overlap होने वाले records के लिए GDPR compliance checklist का उपयोग करें।

EU AI Act enforce करने के लिए तैयार है। क्या आपकी organization 2 अगस्त तक तैयार होगी?

GDPR compliance checklist से शुरू करें →

सीमाएँ और खुले प्रश्न

AI Act नियमों के लिए data scrubbing अभी evolving है। यहाँ key gaps हैं।

Thresholds परिभाषित नहीं हैं। EU AI Act नहीं कहता कि कितना scrubbing "sufficient" है। जब तक European AI Office guidance जारी नहीं करता, आपको legal risk का सामना करना पड़ेगा।

Re-identification risk बना रहता है। Research दिखाता है कि large language models अपने datasets से content memorize और replay कर सकते हैं। Model development से पहले scrubbing standards pass करने वाले records अभी भी extractable हो सकते हैं।

Synthetic records की सीमाएँ हैं। Synthetic generation statistical patterns रखती है लेकिन subtle biases जोड़ सकती है या rare edge cases miss कर सकती है।

Article 10 अभी interpret हो रहा है। "Appropriate technical measures" phrase को interpretation की जरूरत है। पूरे 2026 में EDPB guidance और member state decisions watch करें।

स्रोत

  • EU AI Act, Regulation (EU) 2024/1689, Articles 9–17 (high-risk AI obligations), OJ L 2024/1689
  • EU AI Act, Article 10 — Data and data governance
  • CNIL AI dataset guidance, जनवरी 2026
  • Colorado AI Act, SB 205, effective June 30, 2026
  • EU AI Act timeline: prohibited practices February 2, 2025; high-risk systems August 2, 2026

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

About this page

We update this page when our platform or the law changes.

Read our founder note for how we work.

Each change shows up in the timestamp at the top.

Related reading

We follow these rules

  • GDPR (EU 2016/679).
  • ISO/IEC 27001:2022.
  • NIS2 (EU 2022/2555).
  • HIPAA safe harbor under 45 CFR § 164.514(b)(2).

Our promise

We do not sell your data.

We do not train models on your text.

We store your files in Germany.

You can delete your account at any time.

You own your work.

Where we run

Our servers live in Falkenstein, Germany.

We use Hetzner. They hold ISO 27001 certification.

All data stays in the EU.

Backups run every day.

Need help?

Email support@anonym.legal.

We reply within one business day.

How we test

We run a full check suite on every release.

Each surface gets its own sweep script and report.

Human reviewers spot-check the output each week.

We track recall and precision on a labelled set.

Bad runs block the deploy.

What we never do

  • We never sell your information to third parties.
  • We never train models on what you upload.
  • We never keep your work after you delete it.
  • We never share keys with any outside firm.
  • We never run ads inside the product.

Plans in plain words

We sell credits, not seats.

One credit covers one short job.

Long jobs use a few credits each.

You can top up at any time.

Unused credits roll over each month.

Read the plans page for current rates.

Who built this

A small team of engineers and lawyers built this.

We ship from Europe and work in the open.

Our founder note spells out why we started.

Where to start

How the parts fit

A browser add-on cleans text inside Chrome.

A Word plug-in handles drafts in Office.

A small desktop tool works on whole folders.

An agent protocol link feeds large models safely.

All four share one core engine and one rule set.

Words from our team

We started this work after a lunch about cookies.

One friend kept getting odd ads on her phone.

We asked why a court file leaked through a draft.

We sketched the first build on a napkin that week.

By month three we had a tiny demo for a friend.

She used it on her first case the next day.

Common questions we hear

Can the tool read scanned PDFs? Yes, with OCR.

Does it work on long files? Yes, in small chunks.

Can I roll my own rule set? Yes, save it as a preset.

Does it run offline? The desktop build runs offline.

Do you keep my files? No, the cloud build wipes after each run.

Will it learn from my work? No, we never train on inputs.

A short tour of the workflow

Upload a file or paste a snippet of prose.

Pick the entities you want gone from the draft.

Choose a method: replace, mask, hash, encrypt, or redact.

Press run and watch the side panel show each hit.

Skim the result and tweak any rule that misfired.

Save the cleaned file or send it to a teammate.