काउंटडाउन शुरू हो गया है
2026 के लिए अपडेट किया गया
EU AI Act की deadline असली है। Article 10 नियम 2 अगस्त 2026 से लागू होते हैं। यदि आपकी टीम high-risk AI system बनाती या चलाती है, तो अभी काम करें। समय कम है।
Jurmane GDPR से ज़्यादा हैं। अधिकतम जुर्माना €35 million या global annual turnover का 7% है। GDPR €20 million या 4% पर cap है। किसी अन्य AI law में इससे ज़्यादा जुर्माना नहीं है।
कौन से AI Systems High-Risk हैं?
AI Act systems को risk से sort करता है। High-risk systems (Annex III) में AI cover होती है जो इनमें उपयोग होती है:
- Education — school access या student scoring
- Jobs — CV screening, interview scoring, worker monitoring
- Key services — credit scoring, insurance pricing, emergency dispatch
- Law enforcement — crime prediction, biometric ID
- Healthcare — medical device software, patient triage
- Infrastructure — energy, water, या transport management
- Justice — legal research tools, sentence tools
इनमें से किसी में काम करते हैं? Article 10 आप पर लागू होता है।
Article 10: चार प्रमुख नियम
Article 10 high-risk AI systems द्वारा उपयोग किए जाने वाले datasets के लिए नियम निर्धारित करता है। यहाँ चार मुख्य हैं।
1. Written Governance
Datasets को "appropriate data governance and management practices" का पालन करना चाहिए। आपको collection, quality checks, और ongoing review के लिए written steps चाहिए।
2. Bias Testing
Records को "possible biases" के लिए जाँचना होगा जो unfair outputs का कारण बन सकते हैं। Active testing अनिवार्य है। Intentional bias से बचना पर्याप्त नहीं है।
3. Accuracy और Coverage
Datasets "relevant, sufficiently representative, और free of errors" होने चाहिए। Web crawls जो कुछ groups को miss करते हैं, यह test fail कर सकते हैं।
4. Special Record Types
Article 10(5) सबसे direct नियम है। जब एक high-risk system special category records का उपयोग करता है — health, race, religion, politics, biometrics — तो आप उन्हें केवल तभी process कर सकते हैं जब bias checks के लिए "strictly necessary" हो। आपको "appropriate safeguards" भी apply करने होंगे। Data scrubbing सबसे मज़बूत safeguards में से एक है।
निष्कर्ष: अधिकांश AI model datasets में personal records होते हैं। Article 10 कहता है कि minimum आवश्यक का उपयोग करें, मज़बूत technical safeguards के साथ।
विवरण के लिए हमारा legal compliance page और security overview देखें।
Penalty Tiers
EU AI Act में तीन fine tiers हैं। सभी उसी प्रकार के breach के लिए GDPR से अधिक हैं:
| Regulation | Max Fine | Turnover Cap |
|---|---|---|
| GDPR | €20 million | 4% global turnover |
| EU AI Act (high-risk) | €15 million | 3% global turnover |
| EU AI Act (prohibited) | €35 million | 7% global turnover |
Dataset breaches high-risk tier (€15M / 3%) में आते हैं। यदि regulator पाता है कि safeguards के बिना personal records का उपयोग एक prohibited act है, तो top tier लागू होता है।
Real examples: €500M turnover पर 3% = €15M जुर्माना। €5B turnover पर 3% = €150M जुर्माना। ये real numbers हैं, theory नहीं।
Data Scrubbing इसे क्यों Solve करता है
Proper तरीके से scrubbed records GDPR scope के बाहर आते हैं। यह Article 10 के अधिकांश burden को हटा देता है।
कठिन नियम — special category handling, bias checks, data subject rights — केवल तब लागू होते हैं जब dataset में personal records हों। पहले उन records को हटाएँ। Burden अधिकतर चला जाता है।
CNIL (French data authority) ने 2026 की शुरुआत में यह स्पष्ट किया। इसके AI guidance में कहा गया है: model performance के लिए आवश्यक नहीं personal records का data scrubbing Article 10 के लिए primary technical measure है।
यह fringe view नहीं है। यह EU के top AI regulator का mainstream position है।
Practice में Data Scrubbing का क्या अर्थ है
AI model datasets को scrub करना live production records को scrub करने जैसा नहीं है। Model datasets में हो सकता है:
- PII वाले Documents — contracts, emails, reports, support tickets
- Structured records — predictive models बनाने के लिए उपयोग की गई customer tables
- Labeled content — personal data वाले notes के साथ images या text
- Synthetic records — जहाँ generation अभी भी personal patterns preserve कर सकती है
आपको इन सभी formats में PII detect करनी होगी। एक type miss करने से पूरा dataset expose होता है। नाम हटाए गए लेकिन पूरे addresses बरकरार वाला contract एक model को location को demographic patterns से link करना सिखाएगा।
anonym.legal API large AI datasets के लिए batch processing handle करती है। यह 48 भाषाओं में 285+ entity प्रकार detect करती है। Multilingual datasets वाली European AI companies के लिए, cross-language coverage critical है। एक भाषा में gap पूरे system में EU AI Act risk बनाता है।
Entity detection पर अधिक जानकारी के लिए, token system guide और entity types reference देखें।
Practical Steps: अपना Dataset Scrub करें
Step 1: पहले Audit करें
Kuch भी scrub करने से पहले detection pass चलाएँ। यह बताता है कि कौन सा PII मौजूद है:
curl -X POST https://anonym.legal/api/presidio/analyze \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "'"$(cat document.txt)"'",
"language": "en"
}'
Response हर detected entity को उसके type, position, और score के साथ list करता है। अपनी सभी files पर यह चलाएँ ताकि शुरू करने से पहले पूरा scope देख सकें।
Step 2: Batch Scrub
बड़े datasets के लिए, एक साथ कई files process करने के लिए batch endpoint का उपयोग करें:
import requests
import os
from pathlib import Path
def scrub_batch(documents: list[dict]) -> list[dict]:
response = requests.post(
"https://anonym.legal/api/presidio/anonymize-batch",
json={"items": documents, "language": "en"},
headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
)
return response.json()["results"]
source_dir = Path("./dataset")
docs = [
{"id": f.name, "text": f.read_text()}
for f in source_dir.glob("*.txt")
]
batch_size = 50
for i in range(0, len(docs), batch_size):
results = scrub_batch(docs[i:i+batch_size])
for result in results:
out = source_dir / "clean" / result["id"]
out.write_text(result["text"])
print(f"Done: {result['id']} — {len(result['items'])} entities removed")
Step 3: Records रखें
Article 10 के लिए written records की आवश्यकता है कि आपने क्या किया। हर dataset के लिए रखें:
- उपयोग किया गया detection model और version
- कौन से entity types मिले और हर एक को कैसे replace किया गया
- प्रति dataset हटाई गई entity counts
- Scrubbing की तारीख और dataset version
यह Article 10(2)(a) में "data governance and management practices" requirement पूरी करता है।
सामान्य प्रश्न
क्या scrubbing model quality तोड़ती है?
अधिकांश मामलों में, नहीं। Model text structure से patterns सीखता है, personal details से नहीं। नाम, phone numbers, और addresses को [NAME] या [PHONE] जैसे placeholders से replace किया जा सकता है और model वही patterns सीखता है। कई research teams ने पाया है कि scrubbed datasets same quality के models produce करते हैं। Key है consistent placeholders का उपयोग करना ताकि model एक clear pattern देखे।
यदि मेरा dataset बहुत बड़ा है तो?
Batch API का उपयोग करें। यह parallel में large volumes handle करती है। pricing page high-volume use cases के plans दिखाता है। कई teams प्रति माह millions of records process करती हैं।
Non-English datasets के बारे में क्या?
API 48 भाषाओं को support करती है। हर भाषा उस भाषा पर trained detection model का उपयोग करती है। इसका मतलब है German, French, Spanish, Japanese, और अन्य सभी covered हैं। Mixed-language datasets भी supported हैं — आप batch request में प्रति document language specify कर सकते हैं।
Colorado AI Act: दो Deadlines
Colorado का AI Act 30 जून 2026 से प्रभावी होता है — EU deadline से पाँच सप्ताह पहले। यह state law के तहत "high-risk AI systems" के लिए समान नियम निर्धारित करता है। मुख्य focus bias और discrimination है।
EU और Colorado दोनों में teams को एक साथ दो deadlines का सामना करना पड़ता है। अपने datasets को scrub करने से दोनों laws पूरी करने में मदद मिलती है: Article 10 (EU) और Colorado के anti-bias rules। Technical steps समान हैं।
अभी काम करें
पाँच महीने पर्याप्त हैं — यदि आप आज शुरू करते हैं। यदि आप जून तक इंतज़ार करते हैं तो पर्याप्त नहीं।
एक practical timeline:
- Weeks 1–2: अपने datasets audit करें — पता लगाएँ कि कौन से personal records मौजूद हैं
- Weeks 3–6: अपनी scrubbing pipeline बनाएँ और test करें
- Weeks 7–10: अपने governance records लिखें; legal review करें
- Weeks 11–16: Validate करें — confirm करें कि scrubbed datasets Article 10 quality rules पूरी करते हैं
- 2 अगस्त: Enforcement date — compliant practices in place
anonym.legal API आपकी current pipeline में बड़े बदलावों के बिना plug in होती है। Volume plans के लिए pricing देखें। सामान्य Article 10 सवालों के लिए FAQ देखें।
GDPR और Article 10 के बीच overlap होने वाले records के लिए GDPR compliance checklist का उपयोग करें।
EU AI Act enforce करने के लिए तैयार है। क्या आपकी organization 2 अगस्त तक तैयार होगी?
GDPR compliance checklist से शुरू करें →
सीमाएँ और खुले प्रश्न
AI Act नियमों के लिए data scrubbing अभी evolving है। यहाँ key gaps हैं।
Thresholds परिभाषित नहीं हैं। EU AI Act नहीं कहता कि कितना scrubbing "sufficient" है। जब तक European AI Office guidance जारी नहीं करता, आपको legal risk का सामना करना पड़ेगा।
Re-identification risk बना रहता है। Research दिखाता है कि large language models अपने datasets से content memorize और replay कर सकते हैं। Model development से पहले scrubbing standards pass करने वाले records अभी भी extractable हो सकते हैं।
Synthetic records की सीमाएँ हैं। Synthetic generation statistical patterns रखती है लेकिन subtle biases जोड़ सकती है या rare edge cases miss कर सकती है।
Article 10 अभी interpret हो रहा है। "Appropriate technical measures" phrase को interpretation की जरूरत है। पूरे 2026 में EDPB guidance और member state decisions watch करें।
स्रोत
- EU AI Act, Regulation (EU) 2024/1689, Articles 9–17 (high-risk AI obligations), OJ L 2024/1689
- EU AI Act, Article 10 — Data and data governance
- CNIL AI dataset guidance, जनवरी 2026
- Colorado AI Act, SB 205, effective June 30, 2026
- EU AI Act timeline: prohibited practices February 2, 2025; high-risk systems August 2, 2026