काउंटडाउन शुरू हो गया है

2026 के लिए अपडेट किया गया

EU AI Act की deadline असली है। Article 10 नियम 2 अगस्त 2026 से लागू होते हैं। यदि आपकी टीम high-risk AI system बनाती या चलाती है, तो अभी काम करें। समय कम है।

Jurmane GDPR से ज़्यादा हैं। अधिकतम जुर्माना €35 million या global annual turnover का 7% है। GDPR €20 million या 4% पर cap है। किसी अन्य AI law में इससे ज़्यादा जुर्माना नहीं है।

कौन से AI Systems High-Risk हैं?

AI Act systems को risk से sort करता है। High-risk systems (Annex III) में AI cover होती है जो इनमें उपयोग होती है:

Education — school access या student scoring
Jobs — CV screening, interview scoring, worker monitoring
Key services — credit scoring, insurance pricing, emergency dispatch
Law enforcement — crime prediction, biometric ID
Healthcare — medical device software, patient triage
Infrastructure — energy, water, या transport management
Justice — legal research tools, sentence tools

इनमें से किसी में काम करते हैं? Article 10 आप पर लागू होता है।

Article 10: चार प्रमुख नियम

Article 10 high-risk AI systems द्वारा उपयोग किए जाने वाले datasets के लिए नियम निर्धारित करता है। यहाँ चार मुख्य हैं।

1. Written Governance

Datasets को "appropriate data governance and management practices" का पालन करना चाहिए। आपको collection, quality checks, और ongoing review के लिए written steps चाहिए।

2. Bias Testing

Records को "possible biases" के लिए जाँचना होगा जो unfair outputs का कारण बन सकते हैं। Active testing अनिवार्य है। Intentional bias से बचना पर्याप्त नहीं है।

3. Accuracy और Coverage

Datasets "relevant, sufficiently representative, और free of errors" होने चाहिए। Web crawls जो कुछ groups को miss करते हैं, यह test fail कर सकते हैं।

4. Special Record Types

Article 10(5) सबसे direct नियम है। जब एक high-risk system special category records का उपयोग करता है — health, race, religion, politics, biometrics — तो आप उन्हें केवल तभी process कर सकते हैं जब bias checks के लिए "strictly necessary" हो। आपको "appropriate safeguards" भी apply करने होंगे। Data scrubbing सबसे मज़बूत safeguards में से एक है।

निष्कर्ष: अधिकांश AI model datasets में personal records होते हैं। Article 10 कहता है कि minimum आवश्यक का उपयोग करें, मज़बूत technical safeguards के साथ।

विवरण के लिए हमारा legal compliance page और security overview देखें।

Penalty Tiers

EU AI Act में तीन fine tiers हैं। सभी उसी प्रकार के breach के लिए GDPR से अधिक हैं:

Regulation	Max Fine	Turnover Cap
GDPR	€20 million	4% global turnover
EU AI Act (high-risk)	€15 million	3% global turnover
EU AI Act (prohibited)	€35 million	7% global turnover

Dataset breaches high-risk tier (€15M / 3%) में आते हैं। यदि regulator पाता है कि safeguards के बिना personal records का उपयोग एक prohibited act है, तो top tier लागू होता है।

Real examples: €500M turnover पर 3% = €15M जुर्माना। €5B turnover पर 3% = €150M जुर्माना। ये real numbers हैं, theory नहीं।

Data Scrubbing इसे क्यों Solve करता है

Proper तरीके से scrubbed records GDPR scope के बाहर आते हैं। यह Article 10 के अधिकांश burden को हटा देता है।

कठिन नियम — special category handling, bias checks, data subject rights — केवल तब लागू होते हैं जब dataset में personal records हों। पहले उन records को हटाएँ। Burden अधिकतर चला जाता है।

CNIL (French data authority) ने 2026 की शुरुआत में यह स्पष्ट किया। इसके AI guidance में कहा गया है: model performance के लिए आवश्यक नहीं personal records का data scrubbing Article 10 के लिए primary technical measure है।

यह fringe view नहीं है। यह EU के top AI regulator का mainstream position है।

Practice में Data Scrubbing का क्या अर्थ है

AI model datasets को scrub करना live production records को scrub करने जैसा नहीं है। Model datasets में हो सकता है:

PII वाले Documents — contracts, emails, reports, support tickets
Structured records — predictive models बनाने के लिए उपयोग की गई customer tables
Labeled content — personal data वाले notes के साथ images या text
Synthetic records — जहाँ generation अभी भी personal patterns preserve कर सकती है

आपको इन सभी formats में PII detect करनी होगी। एक type miss करने से पूरा dataset expose होता है। नाम हटाए गए लेकिन पूरे addresses बरकरार वाला contract एक model को location को demographic patterns से link करना सिखाएगा।

anonym.legal API large AI datasets के लिए batch processing handle करती है। यह 48 भाषाओं में 285+ entity प्रकार detect करती है। Multilingual datasets वाली European AI companies के लिए, cross-language coverage critical है। एक भाषा में gap पूरे system में EU AI Act risk बनाता है।

Entity detection पर अधिक जानकारी के लिए, token system guide और entity types reference देखें।

Practical Steps: अपना Dataset Scrub करें

Step 1: पहले Audit करें

Kuch भी scrub करने से पहले detection pass चलाएँ। यह बताता है कि कौन सा PII मौजूद है:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Response हर detected entity को उसके type, position, और score के साथ list करता है। अपनी सभी files पर यह चलाएँ ताकि शुरू करने से पहले पूरा scope देख सकें।

Step 2: Batch Scrub

बड़े datasets के लिए, एक साथ कई files process करने के लिए batch endpoint का उपयोग करें:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Done: {result['id']} — {len(result['items'])} entities removed")

Step 3: Records रखें

Article 10 के लिए written records की आवश्यकता है कि आपने क्या किया। हर dataset के लिए रखें:

उपयोग किया गया detection model और version
कौन से entity types मिले और हर एक को कैसे replace किया गया
प्रति dataset हटाई गई entity counts
Scrubbing की तारीख और dataset version

यह Article 10(2)(a) में "data governance and management practices" requirement पूरी करता है।

सामान्य प्रश्न

क्या scrubbing model quality तोड़ती है?

अधिकांश मामलों में, नहीं। Model text structure से patterns सीखता है, personal details से नहीं। नाम, phone numbers, और addresses को [NAME] या [PHONE] जैसे placeholders से replace किया जा सकता है और model वही patterns सीखता है। कई research teams ने पाया है कि scrubbed datasets same quality के models produce करते हैं। Key है consistent placeholders का उपयोग करना ताकि model एक clear pattern देखे।

यदि मेरा dataset बहुत बड़ा है तो?

Batch API का उपयोग करें। यह parallel में large volumes handle करती है। pricing page high-volume use cases के plans दिखाता है। कई teams प्रति माह millions of records process करती हैं।

Non-English datasets के बारे में क्या?

API 48 भाषाओं को support करती है। हर भाषा उस भाषा पर trained detection model का उपयोग करती है। इसका मतलब है German, French, Spanish, Japanese, और अन्य सभी covered हैं। Mixed-language datasets भी supported हैं — आप batch request में प्रति document language specify कर सकते हैं।

Colorado AI Act: दो Deadlines

Colorado का AI Act 30 जून 2026 से प्रभावी होता है — EU deadline से पाँच सप्ताह पहले। यह state law के तहत "high-risk AI systems" के लिए समान नियम निर्धारित करता है। मुख्य focus bias और discrimination है।

EU और Colorado दोनों में teams को एक साथ दो deadlines का सामना करना पड़ता है। अपने datasets को scrub करने से दोनों laws पूरी करने में मदद मिलती है: Article 10 (EU) और Colorado के anti-bias rules। Technical steps समान हैं।

अभी काम करें

पाँच महीने पर्याप्त हैं — यदि आप आज शुरू करते हैं। यदि आप जून तक इंतज़ार करते हैं तो पर्याप्त नहीं।

एक practical timeline:

Weeks 1–2: अपने datasets audit करें — पता लगाएँ कि कौन से personal records मौजूद हैं
Weeks 3–6: अपनी scrubbing pipeline बनाएँ और test करें
Weeks 7–10: अपने governance records लिखें; legal review करें
Weeks 11–16: Validate करें — confirm करें कि scrubbed datasets Article 10 quality rules पूरी करते हैं
2 अगस्त: Enforcement date — compliant practices in place

anonym.legal API आपकी current pipeline में बड़े बदलावों के बिना plug in होती है। Volume plans के लिए pricing देखें। सामान्य Article 10 सवालों के लिए FAQ देखें।

GDPR और Article 10 के बीच overlap होने वाले records के लिए GDPR compliance checklist का उपयोग करें।

EU AI Act enforce करने के लिए तैयार है। क्या आपकी organization 2 अगस्त तक तैयार होगी?

GDPR compliance checklist से शुरू करें →

सीमाएँ और खुले प्रश्न

AI Act नियमों के लिए data scrubbing अभी evolving है। यहाँ key gaps हैं।

Thresholds परिभाषित नहीं हैं। EU AI Act नहीं कहता कि कितना scrubbing "sufficient" है। जब तक European AI Office guidance जारी नहीं करता, आपको legal risk का सामना करना पड़ेगा।

Re-identification risk बना रहता है। Research दिखाता है कि large language models अपने datasets से content memorize और replay कर सकते हैं। Model development से पहले scrubbing standards pass करने वाले records अभी भी extractable हो सकते हैं।

Synthetic records की सीमाएँ हैं। Synthetic generation statistical patterns रखती है लेकिन subtle biases जोड़ सकती है या rare edge cases miss कर सकती है।

Article 10 अभी interpret हो रहा है। "Appropriate technical measures" phrase को interpretation की जरूरत है। पूरे 2026 में EDPB guidance और member state decisions watch करें।

स्रोत

EU AI Act, Regulation (EU) 2024/1689, Articles 9–17 (high-risk AI obligations), OJ L 2024/1689
EU AI Act, Article 10 — Data and data governance
CNIL AI dataset guidance, जनवरी 2026
Colorado AI Act, SB 205, effective June 30, 2026
EU AI Act timeline: prohibited practices February 2, 2025; high-risk systems August 2, 2026

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

48 भाषाओं में 285+ संस्थाओं के प्रकारों के साथ PII अनामकरण शुरू करें।

फ्री ट्रायल शुरू करें विशेषताएँ देखें

EU AI Act अगस्त 2026: Article 10 पूरा करने के लिए Training Data को Anonymize करें

काउंटडाउन शुरू हो गया है

कौन से AI Systems High-Risk हैं?

Article 10: चार प्रमुख नियम

Penalty Tiers

Data Scrubbing इसे क्यों Solve करता है

Practice में Data Scrubbing का क्या अर्थ है

Practical Steps: अपना Dataset Scrub करें

सामान्य प्रश्न

Colorado AI Act: दो Deadlines

अभी काम करें

सीमाएँ और खुले प्रश्न

स्रोत

संबंधित लेख

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

EU AI Act अगस्त 2026: Article 10 पूरा करने के लिए Training Data को Anonymize करें

काउंटडाउन शुरू हो गया है

कौन से AI Systems High-Risk हैं?

Article 10: चार प्रमुख नियम

Penalty Tiers

Data Scrubbing इसे क्यों Solve करता है

Practice में Data Scrubbing का क्या अर्थ है

Practical Steps: अपना Dataset Scrub करें

सामान्य प्रश्न

Colorado AI Act: दो Deadlines

अभी काम करें

सीमाएँ और खुले प्रश्न

स्रोत

संबंधित लेख

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

क्या आप अपने डेटा की सुरक्षा के लिए तैयार हैं?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow