Nagsimula Na ang Countdown

Na-update para sa 2026

Totoo ang deadline ng EU AI Act. Ang mga panuntunan ng Article 10 ay naaangkop mula sa Agosto 2, 2026. Kung ang iyong koponan ay nagtatayo o nagpapatakbo ng isang high-risk na AI system, kumilos ngayon. Maikli ang oras.

Ang mga multa ay mas mataas kaysa sa GDPR. Ang maximum na multa ay €35 milyon o 7% ng taunang pandaigdigang kita. Ang GDPR ay may limitasyon sa €20 milyon o 4%. Walang ibang batas sa AI ang may mas mataas na multa.

Aling Mga AI System ang High-Risk?

Iniuuri ng AI Act ang mga sistema ayon sa panganib. Ang mga high-risk na sistema (Annex III) ay sumasaklaw sa AI na ginagamit sa:

Edukasyon — pag-access sa paaralan o pagmamarka ng estudyante
Trabaho — pag-screen ng CV, pagmamarka ng panayam, pagsubaybay sa manggagawa
Mga pangunahing serbisyo — pagmamarka ng credit, presyo ng insurance, emergency dispatch
Pagpapatupad ng batas — hula ng krimen, biometric na ID
Pangangalagang pangkalusugan — software ng medikal na device, triage ng pasyente
Imprastraktura — pamamahala ng enerhiya, tubig, o transportasyon
Katarungan — mga tool sa legal na pananaliksik, mga tool sa sentensya

Nagtatrabaho sa alinman sa mga ito? Naaangkop sa iyo ang Article 10.

Article 10: Apat na Pangunahing Panuntunan

Nagtatatag ang Article 10 ng mga panuntunan para sa mga dataset na ginagamit ng mga high-risk na AI system. Narito ang apat na pangunahing panuntunan.

1. Nakasulat na Pamamahala

Ang mga dataset ay dapat sumunod sa "angkop na mga gawi sa pamamahala at pamamahala ng datos." Kailangan mo ng mga nakasulat na hakbang para sa koleksyon, mga pagsusuri sa kalidad, at patuloy na pagsusuri.

2. Pagsusuri ng Bias

Ang mga rekord ay dapat suriin para sa "posibleng mga bias" na maaaring magdulot ng hindi makatarungang output. Kinakailangan ang aktibong pagsubok. Hindi sapat ang pag-iwas sa intensyonal na bias.

3. Katumpakan at Saklaw

Ang mga dataset ay dapat na "may kaugnayan, sapat na representatibo, at walang mga pagkakamali." Ang mga web crawl na nagpapalaktaw sa ilang grupo ay maaaring hindi makapasa sa pagsubok na ito.

4. Espesyal na Uri ng Rekord

Ang Article 10(5) ang pinaka-direktang panuntunan. Kapag gumagamit ang isang high-risk na sistema ng mga rekord ng espesyal na kategorya — kalusugan, lahi, relihiyon, pulitika, biometrika — maaari ka lamang nagpoproseso ng mga ito kapag "mahigpit na kinakailangan" para sa mga pagsusuri ng bias. Dapat ka ring mag-apply ng "angkop na mga safeguard." Ang paglilinis ng datos ay isa sa mga pinakamalakas na safeguard na maaari mong gamitin.

Ang buod: karamihan sa mga dataset ng AI model ay nagtataglay ng personal na rekord. Sinasabi ng Article 10 na gumamit ng pinakamaliit na kailangan, na may malakas na teknikal na mga safeguard.

Tingnan ang aming pahina ng legal na pagsunod at pangkalahatang-ideya ng seguridad para sa mga detalye.

Mga Antas ng Parusa

Ang EU AI Act ay may tatlong antas ng multa. Lahat ng ito ay lumagpas sa GDPR para sa parehong uri ng paglabag:

Regulasyon	Max na Multa	Limitasyon sa Kita
GDPR	€20 milyon	4% ng pandaigdigang kita
EU AI Act (high-risk)	€15 milyon	3% ng pandaigdigang kita
EU AI Act (ipinagbabawal)	€35 milyon	7% ng pandaigdigang kita

Ang mga paglabag sa dataset ay nahuhulog sa high-risk na antas (€15M / 3%). Kung mataklasan ng isang regulator na ang paggamit ng personal na rekord nang walang mga safeguard ay isang ipinagbabawal na gawa, naaangkop ang pinakamataas na antas.

Mga tunay na halimbawa: €500M na kita sa 3% = €15M na multa. €5B na kita sa 3% = €150M na multa. Mga tunay na numero ito, hindi teorya.

Bakit Nireresolta ng Data Scrubbing Ito

Ang mga maayos na na-scrub na rekord ay nasa labas ng saklaw ng GDPR. Nag-aalis ito ng karamihan sa pasanin ng Article 10.

Ang mga mahirap na panuntunan — paghawak ng espesyal na kategorya, mga pagsusuri ng bias, mga karapatan ng data subject — ay naaangkop lamang kapag ang isang dataset ay nagtataglay ng personal na rekord. Alisin muna ang mga rekord na iyon. Ang pasanin ay halos nawawala.

Ginawang malinaw ito ng CNIL (awtoridad ng datos ng Pransya) noong unang bahagi ng 2026. Ang gabay nito sa AI ay nagsasabing ito: ang paglilinis ng datos ng mga personal na rekord na hindi kailangan para sa pagganap ng modelo ang pangunahing teknikal na hakbain para sa Article 10.

Hindi ito isang fringe na pananaw. Ito ang mainstream na posisyon ng nangungunang AI regulator ng EU.

Ano ang Ibig Sabihin ng Data Scrubbing sa Praktiko

Ang pag-scrub ng mga dataset ng AI model ay hindi katulad ng pag-scrub ng mga live na rekord ng produksyon. Ang mga dataset ng modelo ay maaaring nagtataglay ng:

Mga dokumento na may PII — mga kontrata, email, ulat, support ticket
Mga istruktura na rekord — mga talahanayan ng customer na ginagamit upang bumuo ng mga predictive na modelo
Naka-label na nilalaman — mga imahe o teksto na may mga tala na may personal na datos
Mga synthetic na rekord — kung saan ang henerasyon ay maaaring nagpapanatili pa rin ng mga personal na pattern

Dapat mong matukoy ang PII sa lahat ng format na ito. Ang pagpapalaktaw sa isang uri ay naglalantad ng buong dataset. Ang isang kontrata na may mga pangalang inalis ngunit may mga kumpletong address na nananatili ay magtuturo pa rin sa isang modelo na iugnay ang lokasyon sa mga demographic na pattern.

Hinahawakan ng anonym.legal API ang batch processing para sa malalaking AI dataset. Nakikilala nito ang 285+ na uri ng entity sa 48 wika. Para sa mga kumpanyang European AI na may multilingual na dataset, kritikal ang saklaw sa iba't ibang wika. Ang isang agwat sa isang wika ay lumilikha ng panganib sa EU AI Act sa buong sistema.

Para sa higit pang impormasyon sa deteksyon ng entity, tingnan ang gabay sa token system at sanggunian ng mga uri ng entity.

Mga Praktikal na Hakbang: Pag-scrub ng Iyong Dataset

Hakbang 1: Mag-audit muna

Magpatakbo ng detection pass bago ka mag-scrub ng anuman. Sinasabi nito sa iyo kung anong PII ang naroroon:

curl -X POST https://anonym.legal/api/presidio/analyze \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "'"$(cat document.txt)"'",
    "language": "en"
  }'

Inilalista ng tugon ang bawat natukoy na entity na may uri, posisyon, at score. Patakbuhin ito sa lahat ng iyong file upang makita ang buong saklaw bago ka magsimula.

Hakbang 2: Batch scrub

Para sa malalaking dataset, gamitin ang batch endpoint upang iproseso ang maraming file nang sabay-sabay:

import requests
import os
from pathlib import Path

def scrub_batch(documents: list[dict]) -> list[dict]:
    response = requests.post(
        "https://anonym.legal/api/presidio/anonymize-batch",
        json={"items": documents, "language": "en"},
        headers={"Authorization": f"Bearer {os.environ['ANONYM_API_KEY']}"}
    )
    return response.json()["results"]

source_dir = Path("./dataset")
docs = [
    {"id": f.name, "text": f.read_text()}
    for f in source_dir.glob("*.txt")
]

batch_size = 50
for i in range(0, len(docs), batch_size):
    results = scrub_batch(docs[i:i+batch_size])
    for result in results:
        out = source_dir / "clean" / result["id"]
        out.write_text(result["text"])
        print(f"Tapos: {result['id']} - {len(result['items'])} entity ang naalis")

Hakbang 3: Panatilihin ang mga rekord

Nangangailangan ang Article 10 ng mga nakasulat na rekord ng ginawa mo. Para sa bawat dataset, panatilihin ang:

Ang modelo ng deteksyon at bersyon na ginamit
Aling mga uri ng entity ang natagpuan at kung paano pinalitan ang bawat isa
Mga bilang ng entity na naalis bawat dataset
Ang petsa ng pag-scrub at ang bersyon ng dataset na ginamit

Natutugunan nito ang kinakailangan na "mga gawi sa pamamahala at pamamahala ng datos" sa Article 10(2)(a).

Mga Karaniwang Tanong

Sinisira ba ng scrubbing ang kalidad ng modelo?

Sa karamihan ng kaso, hindi. Natututo ang modelo ng mga pattern mula sa istruktura ng teksto, hindi sa mga personal na detalye. Ang mga pangalan, numero ng telepono, at address ay maaaring palitan ng mga placeholder tulad ng [NAME] o [PHONE] at natututo pa rin ang modelo ng parehong mga pattern. Natuklasan ng maraming research team na ang mga na-scrub na dataset ay gumagawa ng mga modelong may katumbas na kalidad. Ang susi ay ang gumamit ng mga consistent na placeholder upang makita ng modelo ang malinaw na pattern.

Paano kung ang aking dataset ay napakalaki?

Gamitin ang batch API. Pinamamahalaan nito ang malalaking volume nang parallel. Ipinapakita ng pahina ng pagpepresyo ang mga plano para sa mga high-volume na kaso ng paggamit. Maraming koponan ang nagpoproseso ng milyun-milyong rekord bawat buwan.

Paano ang tungkol sa mga dataset na hindi Ingles?

Sinusuportahan ng API ang 48 wika. Bawat wika ay gumagamit ng detection model na sinanay sa wikang iyon. Nangangahulugan ito na ang Aleman, Pranses, Espanyol, Hapon, at iba pa ay lahat sinasaklaw. Tingnan ang FAQ para sa buong listahan ng wika. Ang mga mixed-language na dataset ay sinusuportahan din — maaari mong tukuyin ang wika bawat dokumento sa batch request.

Colorado AI Act: Dalawang Deadline

Ang AI Act ng Colorado ay magkakabisa sa Hunyo 30, 2026 — limang linggo bago ang deadline ng EU. Nagtatakda ito ng magkatulad na panuntunan para sa mga "high-risk na AI system" sa ilalim ng batas ng estado. Ang pangunahing pokus ay bias at diskriminasyon.

Ang mga koponan sa parehong EU at Colorado ay nahaharap sa dalawang deadline nang sabay. Ang pag-scrub ng iyong mga dataset ay tumutulong na matugunan ang parehong batas: Article 10 (EU) at mga anti-bias na panuntunan ng Colorado. Ang mga teknikal na hakbang ay magkapareho.

Kumilos Ngayon

Sapat ang limang buwan — kung magsisimula ka ngayon. Hindi sapat kung maghihintay ka hanggang Hunyo.

Isang praktikal na timeline:

Mga Linggo 1-2: I-audit ang iyong mga dataset — alamin kung anong personal na rekord ang naroroon
Mga Linggo 3-6: Bumuo at subukan ang iyong scrubbing pipeline
Mga Linggo 7-10: Isulat ang iyong mga rekord ng pamamahala; makakuha ng legal na pagsusuri
Mga Linggo 11-16: I-validate — kumpirmahin na ang mga na-scrub na dataset ay nakakatugon sa mga panuntunan ng kalidad ng Article 10
Agosto 2: Petsa ng pagpapatupad — mga sumusunod na gawi sa lugar

Ang anonym.legal API ay nakadugtong sa iyong kasalukuyang pipeline nang walang malalaking pagbabago. Suriin ang pagpepresyo para sa mga plano ng volume. Sinasaklaw ng FAQ ang mga karaniwang tanong sa Article 10.

Gamitin ang checklist ng pagsunod sa GDPR para sa mga rekord na magkakapatong sa pagitan ng GDPR at Article 10.

Handa ang EU AI Act na ipatupad. Magiging handa ba ang iyong organisasyon sa Agosto 2?

Magsimula sa checklist ng pagsunod sa GDPR

Mga Limitasyon at Bukas na Tanong

Ang data scrubbing para sa mga panuntunan ng AI Act ay patuloy na nagbabago. Narito ang mga pangunahing agwat.

Hindi natutukoy ang mga threshold. Hindi sinasabi ng EU AI Act kung anong antas ng scrubbing ang "sapat." Hanggang maglabas ng gabay ang European AI Office, nahaharap ka sa legal na panganib. Maaaring hindi mo malaman kung ang iyong paraan ay makakasatisfy sa mga regulator.

Nananatili ang panganib ng muling pagkilala. Ipinakita ng mga pananaliksik na ang malalaking language model ay maaaring kabisahin at muling reprodukuhin ang nilalaman mula sa kanilang mga dataset. Ang mga rekord na pumasa sa mga pamantayan ng scrubbing bago ang pagbuo ng modelo ay maaari pa ring makuha. Ang pag-scrub bago ang pagbuo ay hindi ganap na nireresolta ito.

Ang mga synthetic na rekord ay may mga limitasyon. Pinapanatili ng synthetic na henerasyon ang mga istatistikal na pattern ngunit maaaring magdagdag ng mga banayad na bias o mapalaktaw ang mga bihirang edge case. Ang mga modelong itinayo lamang sa synthetic na nilalaman ay maaaring mahirap gamitin sa mga tunay na input.

Ang Article 10 ay isinasaling-wika pa rin. Ang pariralang "angkop na teknikal na mga hakbain" ay nangangailangan ng interpretasyon. Ang maagang gawain ng DPA sa mga miyembrong estado ng EU ay hindi pa nagtatatag ng malinaw na pamantayan. Bantayan ang gabay ng EDPB at mga desisyon ng miyembrong estado sa buong 2026.

Mga Pinagkukunan

EU AI Act, Regulasyon (EU) 2024/1689, Mga Artikulo 9-17 (mga obligasyon ng high-risk na AI), OJ L 2024/1689
EU AI Act, Article 10 — Datos at pamamahala ng datos
Gabay ng CNIL sa AI dataset, Enero 2026
Colorado AI Act, SB 205, epektibo Hunyo 30, 2026
Timeline ng EU AI Act: mga ipinagbabawal na gawi Pebrero 2, 2025; mga high-risk na sistema Agosto 2, 2026

EU AI Act Agosto 2026: Pag-anonymize ng Training Data upang Matugunan ang Article 10

Nagsimula Na ang Countdown

Aling Mga AI System ang High-Risk?

Article 10: Apat na Pangunahing Panuntunan

Mga Antas ng Parusa

Bakit Nireresolta ng Data Scrubbing Ito

Ano ang Ibig Sabihin ng Data Scrubbing sa Praktiko

Mga Praktikal na Hakbang: Pag-scrub ng Iyong Dataset

Mga Karaniwang Tanong

Colorado AI Act: Dalawang Deadline

Kumilos Ngayon

Mga Limitasyon at Bukas na Tanong

Mga Pinagkukunan

Mga Kaugnay na Artikulo

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Handa nang protektahan ang iyong data?

EU AI Act Agosto 2026: Pag-anonymize ng Training Data upang Matugunan ang Article 10

Nagsimula Na ang Countdown

Aling Mga AI System ang High-Risk?

Article 10: Apat na Pangunahing Panuntunan

Mga Antas ng Parusa

Bakit Nireresolta ng Data Scrubbing Ito

Ano ang Ibig Sabihin ng Data Scrubbing sa Praktiko

Mga Praktikal na Hakbang: Pag-scrub ng Iyong Dataset

Mga Karaniwang Tanong

Colorado AI Act: Dalawang Deadline

Kumilos Ngayon

Mga Limitasyon at Bukas na Tanong

Mga Pinagkukunan

Mga Kaugnay na Artikulo

Japan My Number: Verhoeff & APPI

HDPA Greece: AFM & AMKA Detection

NAIH Hungary: TAJ-Szám and Adóazonosító Jel

Handa nang protektahan ang iyong data?

About this page

Related reading

We follow these rules

Our promise

Where we run

Need help?

How we test

What we never do

Plans in plain words

Who built this

Where to start

How the parts fit

Words from our team

Common questions we hear

A short tour of the workflow